기계 학습 알고리즘의 여행

저자:작은 꿈, 2017-02-25 09:37:02, 업데이트:

기계 학습 알고리즘의 여행

우리는 우리가 해결해야 할 기계 학습 문제를 이해합니다.http://machinelearningmastery.com/practical-machine-learning-problems/그리고 나서 우리는 어떤 데이터를 수집하고 어떤 알고리즘을 사용할 수 있는지 생각해 볼 수 있습니다. 이 문서에서는 가장 인기있는 기계 학습 알고리즘을 살펴보고 어떤 방법이 유용하고 유용한지 자세히 알아보겠습니다. 머신러닝 분야에는 많은 알고리즘이 있고, 그리고 각각의 알고리즘에는 많은 확장들이 있습니다. 그래서 특정 문제에 대해 올바른 알고리즘을 어떻게 결정하는지는 매우 어렵습니다. 이 글에서는 현실에서 발생하는 알고리즘을 요약하는 두 가지 방법을 알려드리고 싶습니다.

  • 학습 방식

    경험, 환경, 또는 우리가 입력이라고 부르는 모든 데이터를 처리하는 방법에 따라 알고리즘은 여러 종류로 분류됩니다. 기계 학습과 인공 지능 교과서는 일반적으로 알고리즘이 적응할 수있는 학습 방식을 먼저 고려합니다.

    여기서는 몇 가지 주요 학습 스타일이나 학습 모델에 대해서만 설명하고 몇 가지 기본적인 예가 있습니다. 이러한 분류 또는 조직 방식은 데이터 입력 역할과 모델 준비 과정에 대해 생각하도록 강요하기 때문에 좋습니다. 그리고 가장 적합한 알고리즘을 선택하여 최상의 결과를 얻을 수 있습니다.

    모니터링 학습: 입력된 데이터는 훈련 데이터로 불리며, 알려진 결과 또는 표시가 있습니다. 예를 들어, 이메일이 스팸 메일인지, 또는 일정 기간 동안의 주가인지. 모델은 예측을 하고, 잘못된 경우 수정됩니다. 이 과정은 훈련 데이터에 대한 특정 올바른 기준을 달성 할 때까지 계속됩니다. 문제 예제에는 분류 및 회귀 문제가 포함되며, 알고리즘 예제에는 논리 회귀 및 역신경 네트워크가 포함됩니다. 무감독 학습: 입력된 데이터는 표기되지 않고 결과가 확정되지 않습니다. 모델은 데이터의 구조와 수치에 대한 귀환을 수행합니다. 문제 예는 협회 규칙 학습과 클러거 문제, 알고리즘 예는 아프리오리 알고리즘과 K-평균 알고리즘을 포함합니다. 반감독 학습: 입력된 데이터는 표시된 데이터와 표시되지 않은 데이터의 혼합이며, 예측 문제가 있지만 모델은 데이터의 구조와 구성도 배워야 합니다. 문제 예제로는 분류 및 회귀 문제가 포함되며, 알고리즘 예제는 기본적으로 감독되지 않은 학습 알고리즘의 확장입니다. 증강 학습: 입력된 데이터는 모델을 자극하고 모델이 반응하도록 한다. 피드백은 관찰된 학습 과정뿐만 아니라 환경에서의 보상이나 처벌에서 얻을 수 있다. 문제 사례는 로봇 제어이며 알고리즘 예는 Q-learning과 Temporal difference learning을 포함한다.

    데이터 시뮬레이션을 통합할 때 대부분의 비즈니스 결정은 감독 학습과 감독되지 않은 학습에 의해 이루어집니다. 다음으로 인기있는 주제는 반 감독 학습입니다. 예를 들어 이미지 분류 문제와 같은 문제에는 큰 데이터베이스가 있지만 그림의 일부만 표시됩니다. 증강 학습은 로봇 제어 및 다른 제어 시스템의 개발에 많이 사용됩니다.

  • 알고리즘 유사성

    알고리즘은 기본적으로 기능이나 형태에 의해 분류된다. 예를 들어, 나무 기반 알고리즘, 신경 네트워크 알고리즘. 이것은 매우 유용한 분류 방법이지만 완벽하지 않다. 많은 알고리즘이 쉽게 두 범주로 분류될 수 있기 때문에, 예를 들어, Learning Vector Quantization는 동시에 신경 네트워크 클래스의 알고리즘과 사례 기반의 방법이다. 기계 학습 알고리즘 자체에 완벽한 모델이 없는 것처럼 알고리즘의 분류 방법도 완벽하지 않다.

    이 부분에서는 내가 가장 직관적인 방법으로 생각하는 분류 알고리즘을 나열했습니다. 나는 모든 알고리즘이나 분류 방법을 다하지 않았지만 독자들에게 전반적인 이해를 제공하는 데 도움이 될 것이라고 생각했습니다.

  • 회귀

    회귀 분석 (Regression Analysis) 은 변수들 사이의 관계에 대해 관심을 갖는다. 그것은 몇 가지 알고리즘의 예로, 다음과 같은 통계적인 방법을 적용한다.

    보통 최소 제곱 물류 회귀 단계적 인 후퇴 다변형 적응 회귀 스플라인 (MARS) 지역적으로 추정된 스캐터그라프트 평형 (LOESS)

  • 인스턴스 기반 방법

    인스턴스 기반 학습 (이스턴스 기반 학습) 은 사용된 인스턴스 또는 예가 모델에 매우 중요한 의사결정 문제를 시뮬레이션한다. 이 방법은 기존 데이터에 데이터베이스를 만들고 새로운 데이터를 추가하고 유사성 측정 방법을 사용하여 데이터베이스에서 가장 적합한 매치를 찾아 예측을 수행합니다. 이 때문에 이 방법은 승자왕 방법과 메모리 기반 방법이라고도 불립니다. 현재 관심은 저장된 데이터의 표현 형태와 유사성 측정 방법에 있습니다.

    가장 가까운 이웃 (kNN) 학습 벡터 양자화 (LVQ) 자기 조직 지도 (SOM)

  • 정규화 방법

    이것은 다른 방법의 연장 (일반적으로 회귀 방법) 이다. 이 연장은 더 간단한 모델에 더 유리하며 더 잘 추론된다. 나는 여기에 그 인기가 있고 강력하기 때문에 그것을 나열한다.

    리지 회귀 최소 절대적 축소 및 선택 연산자 (LASSO) 탄력망

  • 의사 결정 나무 학습

    의사결정 트리 방법은 데이터의 실제 값에 따라 의사결정을 하는 모델을 만듭니다. 의사결정 트리는 귀납 및 회귀 문제를 해결하는 데 사용됩니다.

    분류 및 회귀 나무 (CART) 이터레이티브 디코토마이저 3 (ID3) C4.5 치 제곱 자동 상호 작용 감지 (CHAID) 결정 줄기 무작위 숲 다변형 적응 회귀 스플라인 (MARS) 그라디언트 부스팅 머신 (GBM)

  • 바이에스

    바이에스 방법 (Bayesian method) 은 분류와 회귀 문제를 해결하는 데에 바이에스 정리를 적용하는 방법이다.

    순진한 베이즈 평균 한 가지 의존성 평가자 (AODE) 베이지안 신념 네트워크 (BBN)

  • 커널 방법

    커널 메소드 중 가장 유명한 것은 지원 벡터 머신 (Support Vector Machines) 이다. 이 메소드는 입력 데이터를 더 높은 차원으로 매핑하여 일부 분류 및 회귀 문제를 더 쉽게 모델링한다.

    지원 벡터 기계 (SVM) 반사 기지 함수 (RBF) 선형 분별 분석 (LDA)

  • 그룹화 방법

    클러스터링 (clustering) 은 그 자체로 문제와 방법을 설명한다. 클러스터링 방법은 일반적으로 모델링 방식으로 분류된다. 모든 클러스터링 방법은 단일 데이터 구조를 사용하여 데이터를 조직하여 각 그룹에 가장 많은 공통점을 갖는다.

    K-평균 기대 최대화 (EM)

  • 협동 규칙 학습

    협의 규칙 학습 (Association rule learning) 은 대규모 다차원 공간 데이터 사이의 연관성을 발견할 수 있는 데이터에 대한 법칙을 추출하는 방법이다. 이러한 중요한 연관성은 조직에 의해 활용될 수 있다.

    선행 알고리즘 에클라트 알고리즘

  • 인공 신경망

    인공신경망 (AI) 은 생물학적 신경망의 구조와 기능에서 영감을 얻었다. 그것은 패턴 매칭의 일종에 속하며 회귀와 분류 문제에 자주 사용되지만 수백 개의 알고리즘과 변형 구성이 있습니다. 그 중 일부는 고전적인 인기 알고리즘입니다.

    퍼셉트론 후방 전파 홉필드 네트워크 자기 조직 지도 (SOM) 학습 벡터 양자화 (LVQ)

  • 깊이 있는 학습

    딥 러닝 (Deep Learning) 방식은 인공신경망의 현대적인 업데이트이다. 전통적인 신경망에 비해 더 많은 더 복잡한 네트워크 구조를 가지고 있으며, 많은 방법들은 반감독 학습에 관심이 있으며, 이러한 학습 문제에 많은 데이터가 있지만, 거의 표기된 데이터가 있다.

    제한된 볼츠만 기계 (RBM) 깊은 믿음 네트워크 (DBN) 회전 네트워크 주파수 자동 인코더

  • 차원 감소

    차원 축소 (dimensionality reduction) 는 클러싱 방식과 마찬가지로 데이터의 통일 구조를 추구하고 활용하지만 더 적은 정보로 데이터를 귀납하고 설명합니다. 이것은 데이터를 시각화하거나 단순화하는 데 유용합니다.

    주요 구성 요소 분석 (PCA) 부분 최소 제곱 회귀 (PLS) 삼몬 지도 다차원 스케일링 (MDS) 투사 추구

  • 합성 방법

    앙상블 메소드 (ensemble methods) 는 많은 작은 모델들로 구성되어 있으며, 이들은 독립적으로 훈련되어 독립적인 결론을 내리고 최종적으로 전체적인 예측을 구성합니다. 많은 연구가 어떤 모델을 사용하는지, 그리고 이러한 모델이 어떻게 결합되는지에 초점을 맞추고 있습니다. 이것은 매우 강력하고 인기있는 기술입니다.

    부양 부트스트래프 집계 (백링) AdaBoost 주파수 일반화 ( 혼합) 그라디언트 부스팅 머신 (GBM) 무작위 숲

img

이것은 조합 방법을 사용하여 조립한 예입니다 (위키에서), 각 소방법칙은 회색으로 표시되고 최종 합성된 최종 예측은 빨간색으로 표시됩니다.

  • 다른 자원

    이 머신러닝 알고리즘 투어는 어떤 알고리즘과 연관 알고리즘의 몇 가지 도구에 대한 전반적인 이해를 제공하고자 합니다.

    아래에는 다른 자료들이 있습니다. 너무 많이 생각하지 마세요. 더 많은 알고리즘을 이해하는 것이 당신에게 더 좋을 것입니다. 그러나 어떤 알고리즘에 대한 깊은 이해도 유용합니다.

    • Machine Learning Algorithms의 목록: 위키에 있는 자료입니다.
    • 머신러닝 알고리즘 카테고리: 이것은 위키에 있는 자료이기도 합니다. 위보다 약간 더 잘 되어 있고, 알파벳 순서로 되어 있습니다.
    • CRAN Task View: Machine Learning & Statistical Learning: 기계 학습 알고리즘의 R 언어 확장팩, 다른 사람들이 사용하는 것을 더 잘 이해하는 데 도움이 되는 것을 보세요.
    • Top 10 Algorithms in Data Mining: 이것은 출판된 기사 (Published article), 지금은 책 (book) 이다. 가장 인기있는 데이터 마이닝 알고리즘을 포함하고 있습니다.

베일러 칼럼/비행하는 파이썬 개발자


더 많은