머신러닝의 3대 주요 범주와 6대 주요 알고리즘의 장단점에 대한 완전한 설명

发明者量化-小小梦

집중하다 사신

집중하다

1271

수행원

머신러닝의 3대 주요 범주와 6대 주요 알고리즘의 장단점에 대한 완전한 설명

만든 날짜: 2017-10-30 12:01:59, 업데이트 날짜: 2017-11-08 13:55:03

3295

머신러닝의 3대 주요 범주와 6대 주요 알고리즘의 장단점에 대한 완전한 설명

기계 학습에서, 목표는 예측 (prediction) 또는 클러스터링 (clustering) 이다. 이 글은 예측 (prediction) 에 초점을 맞추고 있다. 예측 (prediction) 은 입력 변수의 집합에서 출력 변수의 값을 예측하는 과정이다. 예를 들어, 집에 관한 특성의 집합을 얻으면, 우리는 그것의 판매 가격을 예측할 수 있다. 예측 문제는 크게 두 가지로 나눌 수 있다. 이제 기계 학습에서 가장 많이 사용되는 알고리즘을 살펴 보겠습니다. 우리는 이 알고리즘들을 3가지로 분류합니다. 선형 모델, 나무 기반 모델, 신경 네트워크, 그리고 6가지로 분류합니다.

머신러닝의 3대 주요 범주와 6대 주요 알고리즘의 장단점에 대한 완전한 설명

선형 모형 알고리즘: 선형 모형은 간단한 공식을 사용하여 데이터 포인트의 집합을 통해 가장 잘 어울리는 행을 찾습니다. 이 방법은 200 년 전으로 거슬러 올라가고 통계학과 기계 학습 분야에서 널리 사용되었습니다.

#### 1. 선형 회귀

선형 회귀, 또는 더 정확히 말하자면 최소 2배 회귀, 선형 모델의 가장 표준적인 형태이다. 회귀 문제에 있어서, 선형 회귀는 가장 간단한 선형 모델이다. 그것의 단점은 모델이 지나치게 적응하기 쉽다는 것이다. 즉, 모델은 훈련된 데이터를 완전히 적응시키는데 새로운 데이터에 대한 확산 능력을 희생한다. 따라서, 기계 학습에서의 선형 회귀 (그리고 우리가 다음에 이야기할 논리 회귀) 는 일반적으로 정형 회귀이며, 이는 모델이 지나치게 적응하는 것을 막기 위해 특정한 처벌을 받는다는 것을 의미한다.

선형 모델의 또 다른 단점은 매우 단순하기 때문에 입력 변수가 독립하지 않을 때 더 복잡한 행동을 쉽게 예측할 수 없다는 것입니다.

#### 2. 논리 회귀

논리 회귀는 선형 회귀를 분류 문제에 적용하는 것이다. 논리 회귀의 단점은 선형 회귀와 동일하다. 논리 함수는 절댓값 효과를 도입하기 때문에 분류 문제에 매우 좋다.

두 번째, 트리 모델 알고리즘

#### 1. 의사결정 나무

의사 결정 나무는 분기 방법을 사용하여 의사 결정의 모든 가능한 결과를 보여주는 그래프입니다. 예를 들어, 당신은 샐러드를 주문하기로 결정했습니다. 당신의 첫 번째 결정은 야채의 종류가 될 수 있습니다.

의사 결정 나무를 훈련시키기 위해서는 훈련 데이터 세트를 사용하여 목표에 가장 유용한 속성을 찾아내야 합니다. 예를 들어, 사기 탐지 사용 사례에서 우리는 사기 위험을 예측하는 데 가장 큰 영향을 미치는 속성이 국가라는 것을 발견할 수 있습니다. 첫 번째 속성을 분할 한 후 두 개의 하위 세트를 얻습니다. 첫 번째 속성만 알고 있다면 가장 정확하게 예측 할 수 있습니다.

#### 2 무작위 숲

무작위 숲은 많은 의사결정 나무의 평균이며, 각 의사결정 나무는 무작위 데이터 샘플을 사용하여 훈련됩니다. 무작위 숲의 각 나무는 완전한 의사결정 나무보다 약하지만, 모든 나무를 함께 넣으면 다양성의 장점으로 인해 더 나은 전반적인 성능을 얻을 수 있습니다.

무작위 숲은 오늘날 기계 학습에서 매우 인기있는 알고리즘이다. 무작위 숲은 훈련하기 쉽고 상당히 잘 수행한다. 그것의 단점은 다른 알고리즘에 비해 무작위 숲의 출력 예측이 느릴 수 있기 때문에 빠른 예측이 필요할 때 무작위 숲을 선택하지 않을 수 있다는 것이다.

#### 3등급 상승

그라디언트 부스팅은 무작위 숲과 마찬가지로 비 결정 나무로 구성된다. 그라디언트 부스팅과 무작위 숲의 가장 큰 차이점은 그라디언트 부스팅에서 나무가 하나씩 훈련된다는 것이다. 각각의 뒤에 있는 나무는 주로 앞쪽에 있는 나무의 잘못된 데이터를 인식하는 것으로 훈련된다. 이것은 그라디언트 부스팅을 예측하기 쉬운 상황에 덜 집중시키고, 더 어려운 상황에 더 집중하게 만든다.

등급을 올리는 훈련도 매우 빠르며, 매우 좋은 성능을 보여준다. 그러나, 훈련 데이터 세트의 작은 변화는 모델을 근본적으로 변화시킬 수 있기 때문에, 그것이 만들어내는 결과는 가장 실용적이지 않을 수도 있다.

세 번째, 신경망 알고리즘: 신경망은 뇌에서 서로 정보를 교환하는 상호 연결된 신경세포로 구성된 생물학적 현상이다. 이 아이디어는 현재 기계 학습 분야에 적용되어 ANN (인공 신경망) 이라고 불린다.

이 글은 Big Data로 부터 가져온 것입니다.

Forums

PINE Language FAQ Summary MyLanguage Web3 About Us

Product

Robot Strategy Node Platforms Tickets

API

Syntax guide User guide Trading api Blockchain Indicator