기계학습 3대 분류 6대 알고리즘의 장단점

저자:작은 꿈, 2017-10-30 12:01:59, 업데이트: 2017-11-08 13:55:03

기계학습 3대 분류 6대 알고리즘의 장단점

기계학습에서 목표는 예측 (prediction) 또는 클러스터링 (clustering) 이다. 이 문서의 주요 관심사는 예측이다. 예측은 입력 변수 집합에서 출력 변수의 값을 예측하는 과정이다. 예를 들어, 관련 주택의 특성을 얻으면 판매 가격을 예측할 수 있다. 예측 문제는 크게 두 가지로 나눌 수 있다. 이 점을 고려한 다음, 기계 학습에서 가장 잘 알려진, 가장 많이 사용되는 알고리즘을 살펴봅시다. 우리는 이러한 알고리즘을 3가지로 분류합니다. 선형 모델, 트리 기반 모델, 신경망, 그리고 가장 많이 사용되는 6가지 알고리즘에 초점을 맞추고 있습니다.

img

1) 선형 모델 알고리즘: 선형 모델은 간단한 공식을 사용하여 데이터 포인트의 집합을 통해 가장 잘 어울리는 선을 찾습니다. 이 방법은 200년 이상 전으로 거슬러 올라가고 있으며 통계학과 기계 학습 분야에서 널리 사용되고 있습니다. 단순성 때문에 통계학에 유용합니다. 예측하려는 변수 (변수 때문에) 는 이미 알고 있는 변수 (변수 자체) 의 방정식으로 표현되므로 예측은 단순히 변수를 입력하고 그 다음 방정식의 답을 계산하는 문제입니다.

  • 1.线性回归

    선형 회귀, 또는 더 정확하게 말해서 의 최소 2배 회귀 회귀 회귀 회귀 회귀 회귀 회귀 회귀 회귀 회귀 회귀 회귀 회귀 회귀 회귀 회귀 회귀 회귀 회귀 회귀 회귀 회귀 회귀 회귀 회귀 회귀 회귀 회귀 회귀 회귀 회귀 회귀 회귀 회귀 회귀 회귀 회귀 회귀 회귀 회귀 회귀 회귀 회귀 회귀 회귀 회귀 회귀 회귀 회귀 회귀 회귀 회귀 회귀 회귀 회귀 회귀 회귀 회귀 회귀 회귀 회귀 회귀 회귀 회귀 회귀 회귀 회귀 회귀 회귀 회귀 회귀 회귀 회귀 회귀 회귀 회귀 회귀 회귀 회귀 회귀 회귀 회귀 회귀 회귀 회귀 회귀 회귀 회귀 회귀 회귀 회귀 회귀 회귀 회귀 회귀 회귀 회귀 회귀 회귀 회귀 회귀 회귀 회귀 회귀 회귀 회귀 회귀 회귀 회귀 회귀 회귀 회귀 회귀 회귀 회귀 회귀 회귀 회귀 회귀 회

    선형 모델의 또 다른 단점은 그들이 매우 단순하기 때문에 입력 변수가 독립적이지 않을 때 더 복잡한 행동을 예측하는 것이 쉽지 않다는 것입니다.

  • 2.逻辑回归

    논리 회귀는 분류 문제에 대한 선형 회귀의 적응이다. 논리 회귀의 단점은 선형 회귀와 동일하다. 논리 함수는 분류 문제에 매우 좋습니다. 왜냐하면 그것은 제약 효과를 도입하기 때문입니다.

두 번째, 트리 모델 알고리즘

  • 결정의 나무

    결정나무는 분화 방법을 사용하여 결정의 모든 가능한 결과를 나타내는 그림이다. 예를 들어, 당신은 샐러드를 주문하기로 결정하고, 당신의 첫 번째 결정은 아마 쌀의 종류, 다음 샐러드 요리, 그리고 샐러드 의 종류일 것입니다. 우리는 모든 가능한 결과를 결정나무에서 나타낼 수 있습니다.

    의사결정 나무를 훈련시키기 위해 우리는 훈련 데이터 세트를 사용하여 목표에 가장 유용한 특성을 찾아내야 한다. 예를 들어, 사기 검출의 경우, 우리는 국가가 사기 위험 예측에 가장 큰 영향을 미치는 특성을 발견할 수 있다. 첫 번째 속성을 분할하면 두 개의 하위 세트를 얻을 수 있다. 이것은 첫 번째 속성을만 알고 있다면 가장 정확하게 예측할 수 있다. 그 다음 우리는 두 개의 하위 세트에 분할할할 수 있는 두 번째 좋은 속성을 찾아내고 다시 분할을 사용하며, 그렇게 반복해서 충분한 속성이 있을 때까지 목표의 요구를 충족시킬 수 있다.

  • 2 무작위 숲

무작위 숲은 많은 의사결정 나무의 평균이며, 각각의 의사결정 나무는 무작위 데이터 샘플로 훈련된다. 무작위 숲의 각각의 나무는 완전한 의사결정 나무보다 약하지만, 모든 나무를 함께 넣으면 다양성의 장점으로 인해 더 나은 전반적인 성능을 얻을 수 있다.

무작위 숲은 오늘날 기계 학습에서 매우 인기있는 알고리즘이다. 무작위 숲은 훈련하기가 쉽고 상당히 잘 수행된다. 그것의 단점은 다른 알고리즘에 비해 무작위 숲의 출력 예측이 느릴 수 있기 때문에 빠른 예측이 필요할 때 무작위 숲을 선택하지 않을 수 있다는 것입니다.

  • 3 차원 상승

    그라디엔트 부팅은 무작위 숲과 마찬가지로 약한 결정 나무로 구성되어 있다. 그라디엔트 부팅과 무작위 숲의 가장 큰 차이점은 그라디엔트 부팅에서는 나무가 하나씩 훈련된다는 것이다. 각각의 후속 나무는 앞의 나무가 잘못된 데이터를 식별하는 것으로 주로 훈련된다.

    차원 상승 훈련은 또한 빠르고 매우 잘 수행됩니다. 그러나 훈련 데이터 세트의 작은 변화는 모델에 근본적인 변화를 일으킬 수 있으므로 생성되는 결과는 가장 실행 가능한 것이 아닐 수 있습니다.

세 번째, 신경망 알고리즘: 신경망은 뇌에서 서로 정보를 교환하는 서로 연결된 신경으로 구성된 생물학적 현상이다. 이 생각은 이제 기계 학습 분야에 적용되어 ANN (인공 신경망) 이라고 불린다. 심층 학습은 여러 층의 신경망으로 겹쳐져 있다. ANN은 학습을 통해 인간 뇌와 유사한 인지 능력을 얻는 모형의 집합이다. 신경망은 매우 복잡한 작업을 처리하는 데 잘 수행한다. 그러나, 인간 뇌와 마찬가지로, 훈련 모델은 매우 시간과 에너지를 필요로 한다.

빅데이터 플랫폼에서 가져온 것


더 많은