Le parcours des algorithmes d'apprentissage automatique

Auteur:Le petit rêve, Créé: 2017-02-25 09:37:02, mis à jour:

Le parcours des algorithmes d'apprentissage automatique

Nous avons besoin d'une solution pour comprendre les problèmes d'apprentissage automatique que nous avons à résoudre.http://machinelearningmastery.com/practical-machine-learning-problems/Ensuite, nous pouvons réfléchir aux données que nous devons collecter et aux algorithmes que nous pouvons utiliser. Dans cet article, nous allons passer en revue les algorithmes d'apprentissage automatique les plus populaires et voir quels sont ceux qui sont utiles. Il y a beaucoup d'algorithmes dans le domaine de l'apprentissage automatique, et puis il y a beaucoup d'extensions pour chaque algorithme, donc il est difficile de déterminer quel est le bon algorithme pour un problème particulier. Dans cet article, je veux vous donner deux méthodes pour résumer les algorithmes que vous rencontrerez dans la réalité.

  • Comment apprendre

    Les algorithmes sont classés en fonction de la façon dont ils traitent l'expérience, l'environnement ou tout ce que nous appelons des données d'entrée. Les manuels d'apprentissage automatique et d'intelligence artificielle considèrent généralement d'abord la façon dont les algorithmes peuvent s'adapter à l'apprentissage.

    Il n'y a que quelques styles d'apprentissage ou modèles d'apprentissage principaux qui sont discutés ici, et quelques exemples de base. Cette méthode de classification ou d'organisation est bonne, car elle vous oblige à réfléchir aux rôles et au processus de préparation du modèle d'entrée de données, puis à choisir l'algorithme qui convient le mieux à votre problème pour obtenir les meilleurs résultats.

    Surveillance de l'apprentissage: les données entrées sont appelées données de formation et ont des résultats connus ou marqués. Par exemple, si un e-mail est un spam, ou le prix des actions sur une période de temps. Le modèle fait des prédictions, qui sont corrigées si elles sont erronées, et ce processus se poursuit jusqu'à ce qu'il atteigne certains critères corrects pour les données de formation. Apprentissage sans supervision: les données entrées ne sont pas marquées et n'ont pas de résultats déterminés. Le modèle infère la structure et les valeurs numériques des données. Des exemples de problèmes incluent l'apprentissage par règles d'association et les problèmes de regroupement. Des exemples d'algorithmes incluent les algorithmes Apriori et K-mean algorithmes. Apprentissage semi-supervisé: les données d'entrée sont un mélange de données marquées et non marquées. Il y a des problèmes de prédiction, mais les modèles doivent également apprendre la structure et la composition des données. Apprentissage renforcé: les données d'entrée stimulent le modèle et le font réagir. Les commentaires ne proviennent pas seulement du processus d'apprentissage supervisé, mais aussi de la récompense ou de la punition dans l'environnement.

    Lors de l'intégration des données dans les modèles de décision d'entreprise, la plupart des méthodes d'apprentissage supervisé et non supervisé sont utilisées. Un sujet populaire est l'apprentissage semi-supervisé, comme les problèmes de classification d'images, qui contiennent une grande base de données, mais seulement une petite partie des images sont marquées.

  • Similitude des algorithmes

    Les algorithmes sont essentiellement classés par fonction ou par forme. Par exemple, les algorithmes basés sur des arbres, les algorithmes de réseaux neuronaux. C'est une façon de classer très utile, mais pas parfaite.

    Dans cette section, j'ai répertorié les algorithmes que je trouve les plus intuitifs. Je n'ai pas d'algorithmes ou de méthodes de classification, mais je pense qu'ils sont utiles pour donner aux lecteurs une idée générale. Si vous en avez une que je n'ai pas énumérée, merci de la partager.

  • Régression

    L'analyse de régression (ou analyse de régression) se concentre sur les relations entre les variables. Elle applique des méthodes statistiques, et plusieurs exemples d'algorithmes incluent:

    Les plus petits carrés ordinaires Régression logistique Rétrogradation progressive Splines de régression adaptative multivariée (MARS) Légalisation de la scatterplot estimée localement (LOESS)

  • Méthodes basées sur les instances

    L'apprentissage basé sur des exemples simule un problème de décision dans lequel l'exemple ou l'exemple utilisé est très important pour le modèle. Cette approche consiste à créer une base de données sur des données existantes, puis à ajouter de nouvelles données, puis à utiliser une méthode de mesure de la similitude pour trouver une correspondance optimale dans la base de données et à faire une prédiction. Pour cette raison, cette méthode est également appelée méthode gagnant-gagnant et méthode basée sur la mémoire.

    k-Vers le voisin le plus proche (kNN) Apprentissage de la quantification vectorielle (LVQ) Carte d'auto-organisation (SOM)

  • Méthodes de régularisation

    C'est une extension d'une autre méthode (généralement une méthode de régression) qui est plus favorable aux modèles plus simples et plus performants en matière d'induction. Je l'ai énumérée ici parce qu'elle est populaire et puissante.

    Régression de la crête Opérateur de rétrécissement et de sélection absolu minimum (LASSO) Réseau élastique

  • Apprentissage de l'arbre de décision

    Les méthodes d'arborescence de décision créent un modèle de décision basé sur la valeur réelle des données.

    Arbre de classification et de régression (CART) Dichotomisateur itératif 3 (ID3) C4,5 Détection automatique d'interaction au Chi carré (CHAID) Tête de décision Une forêt aléatoire Splines de régression adaptative multivariée (MARS) Machines de levage des gradients (GBM)

  • Bayésien

    La méthode bayésienne est une méthode qui applique le théorème de Bayes pour résoudre les problèmes de classification et de régression.

    Bayes naïf Évaluateurs moyens à dépendance unique (AODE) Réseau de croyances bayésiennes (BBN)

  • Méthodes du noyau

    La méthode de support vecteur est la plus connue des méthodes de support vecteur. Cette méthode permet de cartographier les données d'entrée dans des dimensions plus élevées, ce qui facilite la modélisation de certains problèmes de classification et de régression.

    Machines vectorielles de support (SVM) Fonction de base radiale (FBR) L'analyse linéaire discriminée (LDA)

  • Méthodes de regroupement

    Clustering (clustering), en soi, décrit les problèmes et les méthodes. Les méthodes de clustering sont généralement classées par mode de modélisation. Toutes les méthodes de clustering organisent les données en utilisant une structure de données uniforme afin que chaque groupe ait le plus de choses en commun.

    K - Moyenne Maximisation des attentes (EM)

  • Apprentissage des règles d'association

    L'apprentissage des règles d'association est une méthode utilisée pour extraire des règles de données qui permettent de découvrir des liens entre de grandes quantités de données spatiales multidimensionnelles, qui peuvent être utilisées par des organisations.

    Algorithme préalable Algoritme Eclat

  • Réseaux neuronaux artificiels

    Les réseaux de neurones artificiels sont inspirés de la structure et des fonctions des réseaux de neurones biologiques. Ils appartiennent à la catégorie des correspondances de modèle, souvent utilisées pour les problèmes de régression et de classification, mais il existe des centaines d'algorithmes et de compositions de variations.

    Perceptron Propagation à l'envers Réseau Hopfield Carte d'auto-organisation (SOM) Apprentissage de la quantification vectorielle (LVQ)

  • L'apprentissage en profondeur

    L'approche de l'apprentissage en profondeur est une mise à jour moderne des réseaux de neurones artificiels. Comparé aux réseaux de neurones traditionnels, il a une structure de réseau plus complexe, et de nombreuses méthodes sont axées sur l'apprentissage semi-supervisé.

    La machine de Boltzmann restreinte (RBM) Réseaux de croyances profondes (DBN) Réseau convolutif Les auto-encodeurs empilés

  • Réduction de la dimension

    Dimensionality Reduction, comme la méthode de regroupement, cherche et utilise une structure uniforme dans les données, mais elle les intègre et les décrit avec moins d'informations. Ceci est utile pour visualiser ou simplifier les données.

    Analyse des composants principaux (PCA) Régression partielle des moindres carrés (PLS) Cartographie du sammon Étalonnage multidimensionnel (MDS) Poursuite de la projection

  • Les méthodes d'assemblage

    Les méthodes d'ensemble sont constituées de nombreux modèles plus petits, qui sont formés indépendamment, forment des conclusions indépendantes et forment une prédiction globale. Beaucoup de recherches se concentrent sur ce que les modèles utilisent et comment ils sont combinés.

    Le renforcement L'agrégation bootstrapped (emballage) AdaBoost est en cours de développement. Généralisation empilée (mélange) Machines de levage de gradient (GBM) Une forêt aléatoire

img

C'est un exemple d'ajustement par méthode combinée (de wiki), chaque méthode de lutte contre les incendies est indiquée en gris et la prédiction finale de la synthèse finale est en rouge.

  • Autres ressources

    Cette visite d'algorithmes d'apprentissage automatique est destinée à vous donner une vue d'ensemble des algorithmes et des outils associés.

    Voici d'autres ressources, mais ne vous en faites pas trop, en sachant que plus d'algorithmes sont bons pour vous, mais il est utile d'avoir une connaissance approfondie de certains d'entre eux.

    • Liste des algorithmes d'apprentissage automatique: C'est une ressource sur la wiki, bien que complète, mais je ne pense pas que la classification soit bonne.
    • Machine Learning Algorithms Category: C'est aussi une ressource sur la wiki, un peu mieux que celle ci-dessus, classée par ordre alphabétique.
    • CRAN Task View: Machine Learning & Statistical Learning: L'extension R de l'algorithme d'apprentissage automatique pour voir ce que les autres utilisent le mieux pour vous.
    • Top 10 Algorithms in Data Mining: C'est un article publié, maintenant un livre, qui comprend les algorithmes de minage de données les plus populaires.

Transférée de la rubrique de blogueurs/développeurs de Python


Plus de