기계 학습에서, 목표는 예측 (prediction) 또는 클러스터링 (clustering) 이다. 이 글은 예측 (prediction) 에 초점을 맞추고 있다. 예측 (prediction) 은 입력 변수의 집합에서 출력 변수의 값을 예측하는 과정이다. 예를 들어, 집에 관한 특성의 집합을 얻으면, 우리는 그것의 판매 가격을 예측할 수 있다. 예측 문제는 크게 두 가지로 나눌 수 있다. 이제 기계 학습에서 가장 많이 사용되는 알고리즘을 살펴 보겠습니다. 우리는 이 알고리즘들을 3가지로 분류합니다. 선형 모델, 나무 기반 모델, 신경 네트워크, 그리고 6가지로 분류합니다.

선형 회귀, 또는 더 정확히 말하자면 최소 2배 회귀, 선형 모델의 가장 표준적인 형태이다. 회귀 문제에 있어서, 선형 회귀는 가장 간단한 선형 모델이다. 그것의 단점은 모델이 지나치게 적응하기 쉽다는 것이다. 즉, 모델은 훈련된 데이터를 완전히 적응시키는데 새로운 데이터에 대한 확산 능력을 희생한다. 따라서, 기계 학습에서의 선형 회귀 (그리고 우리가 다음에 이야기할 논리 회귀) 는 일반적으로 정형 회귀이며, 이는 모델이 지나치게 적응하는 것을 막기 위해 특정한 처벌을 받는다는 것을 의미한다.
선형 모델의 또 다른 단점은 매우 단순하기 때문에 입력 변수가 독립하지 않을 때 더 복잡한 행동을 쉽게 예측할 수 없다는 것입니다.
논리 회귀는 선형 회귀를 분류 문제에 적용하는 것이다. 논리 회귀의 단점은 선형 회귀와 동일하다. 논리 함수는 절댓값 효과를 도입하기 때문에 분류 문제에 매우 좋다.
의사 결정 나무는 분기 방법을 사용하여 의사 결정의 모든 가능한 결과를 보여주는 그래프입니다. 예를 들어, 당신은 샐러드를 주문하기로 결정했습니다. 당신의 첫 번째 결정은 야채의 종류가 될 수 있습니다.
의사 결정 나무를 훈련시키기 위해서는 훈련 데이터 세트를 사용하여 목표에 가장 유용한 속성을 찾아내야 합니다. 예를 들어, 사기 탐지 사용 사례에서 우리는 사기 위험을 예측하는 데 가장 큰 영향을 미치는 속성이 국가라는 것을 발견할 수 있습니다. 첫 번째 속성을 분할 한 후 두 개의 하위 세트를 얻습니다. 첫 번째 속성만 알고 있다면 가장 정확하게 예측 할 수 있습니다.
무작위 숲은 많은 의사결정 나무의 평균이며, 각 의사결정 나무는 무작위 데이터 샘플을 사용하여 훈련됩니다. 무작위 숲의 각 나무는 완전한 의사결정 나무보다 약하지만, 모든 나무를 함께 넣으면 다양성의 장점으로 인해 더 나은 전반적인 성능을 얻을 수 있습니다.
무작위 숲은 오늘날 기계 학습에서 매우 인기있는 알고리즘이다. 무작위 숲은 훈련하기 쉽고 상당히 잘 수행한다. 그것의 단점은 다른 알고리즘에 비해 무작위 숲의 출력 예측이 느릴 수 있기 때문에 빠른 예측이 필요할 때 무작위 숲을 선택하지 않을 수 있다는 것이다.
그라디언트 부스팅은 무작위 숲과 마찬가지로 비 결정 나무로 구성된다. 그라디언트 부스팅과 무작위 숲의 가장 큰 차이점은 그라디언트 부스팅에서 나무가 하나씩 훈련된다는 것이다. 각각의 뒤에 있는 나무는 주로 앞쪽에 있는 나무의 잘못된 데이터를 인식하는 것으로 훈련된다. 이것은 그라디언트 부스팅을 예측하기 쉬운 상황에 덜 집중시키고, 더 어려운 상황에 더 집중하게 만든다.
등급을 올리는 훈련도 매우 빠르며, 매우 좋은 성능을 보여준다. 그러나, 훈련 데이터 세트의 작은 변화는 모델을 근본적으로 변화시킬 수 있기 때문에, 그것이 만들어내는 결과는 가장 실용적이지 않을 수도 있다.
이 글은 Big Data로 부터 가져온 것입니다.