Die Reise der Algorithmen für maschinelles Lernen

Schriftsteller:Kleine Träume, Erstellt: 2017-02-25 09:37:02, aktualisiert:

Die Reise der Algorithmen für maschinelles Lernen

Das Problem, das wir mit Machine Learning lösen müssen.http://machinelearningmastery.com/practical-machine-learning-problems/Dann können wir darüber nachdenken, welche Daten wir sammeln müssen und welche Algorithmen wir verwenden können. In diesem Artikel werden wir die beliebtesten Algorithmen für maschinelles Lernen durchgehen, um einen Überblick über die Methoden zu erhalten, die hilfreich sind. Es gibt viele Algorithmen im Bereich des maschinellen Lernens, und dann gibt es viele Erweiterungen für jeden Algorithmus, so dass es schwierig ist, zu bestimmen, welche Algorithmen für ein bestimmtes Problem richtig sind.

  • Lernmethoden

    Algorithmen werden in verschiedene Kategorien eingeteilt, je nachdem, wie sie Erfahrungen, Umgebungen oder irgendwelche Daten, die wir als Input bezeichnen, verarbeiten.

    Hier werden nur einige der wichtigsten Lernstile oder Lernmodelle diskutiert, und es gibt einige grundlegende Beispiele. Diese Klassifizierung oder Organisation ist eine gute Methode, da sie Sie dazu zwingt, über die Rolle der eingegebenen Daten und den Modellvorbereitungsprozess nachzudenken und dann einen Algorithmus zu wählen, der am besten zu Ihrer Frage passt, um die besten Ergebnisse zu erzielen.

    Überwachungslernen: Die eingegebenen Daten werden als Trainingsdaten bezeichnet und haben bekannte Ergebnisse oder werden markiert. Zum Beispiel, ob eine E-Mail Spam ist oder ob der Aktienpreis über einen bestimmten Zeitraum liegt. Das Modell macht eine Vorhersage, wenn sie falsch ist, wird sie korrigiert. Unüberwachtes Lernen: Die eingegebenen Daten sind nicht markiert und haben kein bestimmtes Ergebnis. Das Modell lässt sich auf die Struktur und die Zahlenwerte der Daten reduzieren. Problembeispiele umfassen Assoziationsregellernen und Clustering-Probleme. Algorithmenbeispiele umfassen Apriori-Algorithmen und K-Mittelwert-Algorithmen. Semi-überwachtes Lernen: Die Eingabedaten sind eine Mischung aus markierten und unmarkierten Daten. Es gibt einige Vorhersageprobleme, aber die Modelle müssen auch die Struktur und Zusammensetzung der Daten lernen. Verstärktes Lernen: Eingabedaten stimulieren das Modell und lassen es reagieren. Feedback kommt nicht nur aus dem Lernprozess, der das Lernen überwacht, sondern auch aus Belohnungen oder Bestrafungen in der Umgebung. Problembeispiele sind Roboterkontrolle, Algorithmenbeispiele umfassen Q-Learning und Temporal difference learning.

    Bei der Integration von Daten simulieren die meisten Geschäftsentscheidungen mit überwachten und unsupervisierten Lernmethoden. Ein nächstes Thema ist halbüberwachtes Lernen, wie beispielsweise Bildklassifizierungsprobleme, bei denen es eine große Datenbank gibt, aber nur ein kleiner Teil der Bilder markiert ist.

  • Algorithmenähnlichkeit

    Algorithmen werden grundsätzlich nach Funktion oder Form klassifiziert. Zum Beispiel baumbasierte Algorithmen, neurale Algorithmen. Dies ist eine nützliche Klassifizierungsmethode, aber nicht perfekt.

    In diesem Abschnitt habe ich die Algorithmen aufgelistet, die ich für die intuitivste Methode halte. Ich habe nicht alle Algorithmen oder Klassifizierungsmethoden, aber ich denke, dass sie hilfreich sind, um den Leser eine Übersicht zu geben.

  • Regression

    Regression (Regressionsanalyse) beschäftigt sich mit den Beziehungen zwischen den Variablen. Es wendet statistische Methoden an. Beispiele für mehrere Algorithmen sind:

    Gewöhnliche Kleinste Quadrate Logistische Regression Schrittweise Regression Multivariate Adaptive Regression Splines (MARS) Lokal geschätzte Streuungsgraphie-Gleichung (LOESS)

  • Instanzbasierte Methoden

    Instanzbasiertes Lernen simuliert ein Entscheidungsproblem, bei dem die verwendeten Instanzen oder Beispiele für das Modell von großer Bedeutung sind. Dieses Verfahren erstellt eine Datenbank mit vorhandenen Daten und fügt neue Daten hinzu, um dann eine Vorhersage durch eine ähnlichkeitsmeßende Methode durchzuführen, um eine optimale Übereinstimmung in der Datenbank zu finden. Aus diesem Grund wird es auch als Win-Win-Methode und Speicherbasierte Methode bezeichnet.

    k-Nächster Nachbar (kNN) Lern-Vektor-Quantifizierung (LVQ) Selbstorganisierende Karte (SOM)

  • Regularisierungsmethoden

    Es ist eine Erweiterung der anderen Methoden (in der Regel der Regressionsmethode), die für das einfachere Modell günstiger ist und besser zu summieren ist.

    Ridge-Regression Mindeste absolute Schrumpfung und Auswahloperator (LASSO) Elastische Netze

  • Entscheidungsbaumlernen

    Decision tree Methoden erstellen ein Modell für Entscheidungen, die auf den tatsächlichen Werten in den Daten basieren.

    Klassifizierungs- und Regressionsbaum (CART) Iterativer Dichotomisator 3 (ID3) C4,5 Automatische Interaktionserkennung in Chi-Quadrat (CHAID) Entscheidungsstumpf Zufälliger Wald Multivariate Adaptive Regression Splines (MARS) Maschinen zur Steigerung von Schrägen (GBM)

  • Bayesische

    Die Bayesische Methode (Bayesische Methode) ist die Anwendung von Bayesischen Theoremen bei der Lösung von Klassifizierungs- und Regressionsproblemen.

    Naiv Bayes Durchschnittliche Einabhängigkeitsschätzer (AODE) Bayesian Belief Network (BBN)

  • Kernel-Methoden

    Der Kernel-Methode ist bekannt als Support Vector Machines, die die Eingabedaten in höhere Dimensionen abbilden und einige Klassifizierungs- und Regressionsprobleme einfacher modellieren.

    Unterstützende Vektormaschinen (SVM) Radialbasisfunktion (RBF) Lineare diskriminierende Analyse (LDA)

  • Methoden zur Gruppierung

    Clustering (engl. clustering) beschreibt in sich Probleme und Methoden. Clustering Methoden werden häufig durch Modellierungsmethoden klassifiziert. Alle Clustering-Methoden organisieren die Daten mit einer einheitlichen Datenstruktur, so dass jede Gruppe am meisten gemeinsam hat.

    K-Mittel Erwartungsmaximierung (EM)

  • Lernen von Assoziationsregeln

    Association rule learning ist eine Methode, um Regeln aus Daten zu extrahieren, die Verbindungen zwischen riesigen Massen von multidimensionalen Daten erkennen, die von Organisationen verwendet werden können.

    Vorläufiger Algorithmus Eclat-Algorithmus

  • Künstliche neuronale Netze

    Artificial Neural Networks sind von der Struktur und Funktionalität biologischer Neural Netze inspiriert. Sie gehören zur Kategorie der Muster-Matching-Probleme, die häufig für Regressions- und Klassifizierungsprobleme verwendet werden, aber sie bestehen aus hunderten Algorithmen und Varianten. Einige davon sind klassische, beliebte Algorithmen.

    Perceptron Rückverbreitung Hopfield Netzwerk Selbstorganisierende Karte (SOM) Lern-Vektor-Quantifizierung (LVQ)

  • Tiefes Lernen

    Die Deep Learning-Methode ist eine moderne Aktualisierung eines künstlichen Neuronalnetzes. Im Vergleich zu herkömmlichen Neuronalnetzen hat sie eine viel komplexere Netzwerkstruktur. Viele Methoden konzentrieren sich auf das semi-überwachte Lernen.

    Beschränkte Boltzmann-Maschine (RBM) Deep Belief Networks (DBN) - Netzwerke für tiefe Überzeugungen Konvolutionelles Netzwerk Auto-Encoder in Stapel

  • Dimensionsreduzierung

    Die Dimensionalitätsreduktion, wie die Clustering-Methode, strebt eine einheitliche Struktur in den Daten an und nutzt sie, aber sie lässt die Daten mit weniger Informationen abstrahieren und beschreiben. Dies ist nützlich, um Daten zu visualisieren oder zu vereinfachen.

    Hauptkomponentenanalyse (PCA) Teilregression der kleinsten Quadrate (PLS) Sammon-Mapping Mehrdimensionale Skalierung (MDS) Projektionsverfolgung

  • Zusammenfassung der Methoden

    Ensemble-Methoden bestehen aus vielen kleinen Modellen, die unabhängig voneinander trainiert werden, unabhängige Schlussfolgerungen ziehen und schließlich eine Gesamtvorhersage bilden. Viele Studien konzentrieren sich darauf, welche Modelle verwendet werden und wie diese Modelle zusammengesetzt werden.

    Erhöhung Bootstrapped-Aggregation (Einpackung) AdaBoost Verallgemeinerung in Stapeln (Vermischung) Maschinen zur Steigerung von Schrägen (GBM) Zufälliger Wald

img

Dies ist ein Beispiel für die Anpassung an die Kombinationsmethode (von Wiki), wobei jede Feuerwehrmethode in grau dargestellt wird und die zuletzt zusammengesetzte Endprognose in rot ist.

  • Weitere Ressourcen

    Diese Reise durch maschinelle Lernalgorithmen soll Ihnen einen Überblick geben, welche Algorithmen es gibt und welche Tools sie verwenden.

    Hier sind einige weitere Ressourcen, die Sie nicht zu sehr brauchen, um zu wissen, wie viele Algorithmen für Sie besser sind, aber es kann auch nützlich sein, ein tieferes Verständnis für einige Algorithmen zu haben.

    • List of Machine Learning Algorithms: Dies ist eine Wikipedia-Ressource, die zwar vollständig ist, aber ich finde die Klassifizierung nicht sehr gut.
    • Machine Learning Algorithms Category: Dies ist auch eine Quelle auf der Wiki, etwas besser als oben, alphabetisch sortiert.
    • CRAN Task View: Machine Learning & Statistical Learning: R-Language-Erweiterungspaket für maschinelle Lernalgorithmen, um zu sehen, was Sie besser verstehen, als andere.
    • Top 10 Algorithms in Data Mining: Dies ist ein veröffentlichter Artikel, jetzt ein Buch, mit den beliebtesten Algorithmen für die Datenverarbeitung.

Übertragen von Bell Column/Fly Python Entwickler


Mehr