El viaje de los algoritmos de aprendizaje automático

El autor:Un sueño pequeño., Creado: 2017-02-25 09:37:02, Actualizado:

El viaje de los algoritmos de aprendizaje automático

En el caso de los problemas de aprendizaje automático que necesitamos resolver.http://machinelearningmastery.com/practical-machine-learning-problems/Después, podemos pensar en qué datos necesitamos recopilar y qué algoritmos podemos usar. En este artículo, vamos a repasar los algoritmos de aprendizaje automático más populares y ver qué métodos son útiles. Hay muchos algoritmos en el campo del aprendizaje automático, y cada uno tiene muchas extensiones, por lo que es difícil determinar cuál es el algoritmo correcto para un problema en particular. En este artículo, quiero darles dos métodos para resumir los algoritmos que se encuentran en la realidad.

  • Cómo aprender

    Los algoritmos se clasifican en diferentes categorías según la forma en que procesan la experiencia, el entorno o cualquier dato que llamemos entrada. Los libros de texto de aprendizaje automático y de inteligencia artificial generalmente consideran primero la forma en que los algoritmos pueden adaptarse.

    Aquí sólo se discuten algunos de los principales estilos de aprendizaje o modelos de aprendizaje, y hay algunos ejemplos básicos. Este método de clasificación u organización es bueno, ya que te obliga a pensar en el papel de los datos de entrada y el proceso de preparación del modelo, y luego elegir un algoritmo que se adapte mejor a tu problema para obtener los mejores resultados.

    Supervisar el aprendizaje: los datos entrados se llaman datos de entrenamiento y tienen resultados conocidos o marcados. Por ejemplo, si un correo es spam, o el precio de las acciones durante un período de tiempo. El modelo hace predicciones y se corrige si está mal. Aprendizaje no supervisado: los datos de entrada no están marcados y no hay resultados definidos. Los modelos se deducen de la estructura y los valores numéricos de los datos. Los ejemplos de problemas incluyen el aprendizaje de reglas de asociación y los problemas de agrupación, y los ejemplos de algoritmos incluyen el algoritmo de apriori y el algoritmo de medias de K. Aprendizaje semi-supervisado: los datos de entrada son una mezcla de datos marcados y no marcados, hay algunos problemas de predicción, pero los modelos también deben aprender la estructura y la composición de los datos. Los ejemplos de problemas incluyen problemas de clasificación y regresión, los ejemplos de algoritmos son esencialmente una extensión de algoritmos de aprendizaje sin supervisión. Aprendizaje reforzado: los datos de entrada pueden estimular el modelo y hacer que reaccione. La retroalimentación se obtiene no solo del proceso de aprendizaje supervisado, sino también de la recompensa o el castigo en el entorno.

    Cuando se integran las decisiones comerciales de simulación de datos, la mayoría utiliza métodos de aprendizaje supervisado y de aprendizaje no supervisado. Un tema de actualidad es el aprendizaje semi-supervisado, como los problemas de clasificación de imágenes, en los que hay una gran base de datos, pero solo una pequeña parte de las imágenes son marcadas. El aprendizaje aumentado se usa principalmente en el desarrollo de controles de robots y otros sistemas de control.

  • La similitud de los algoritmos

    Los algoritmos se clasifican básicamente por función o forma. Por ejemplo, los algoritmos basados en árboles, los algoritmos de redes neuronales. Esta es una forma de clasificar muy útil, pero no perfecta.

    En esta sección, he enumerado los algoritmos que considero la forma más intuitiva de clasificar. No tengo una lista completa de algoritmos o métodos de clasificación, pero creo que es muy útil para dar a los lectores una idea general. Si hay algo que no he enumerado, bienvenido a un comentario y compartir. ¡Ahora empezamos!

  • Regresión

    El análisis de regresión se ocupa de las relaciones entre las variables. Aplica métodos estadísticos, y algunos ejemplos de algoritmos incluyen:

    Cuadrados mínimos ordinarios Regresión logística Regresión gradual Splines de regresión adaptativa multivariada (MARS) El valor de las emisiones de gases de efecto invernadero se calculará en función de las emisiones de gases de efecto invernadero.

  • Métodos basados en instancias

    El aprendizaje basado en instancias simula un problema de decisión en el que el ejemplo o ejemplos utilizados son muy importantes para el modelo. Este método consiste en crear una base de datos sobre los datos existentes y agregar nuevos datos, y luego utilizar un método de medición de similitud para encontrar una mejor coincidencia y hacer una predicción en la base de datos. Por esta razón, este método también se conoce como el método de los ganadores y el método basado en la memoria.

    k-Vecinos más cercanos (kNN) Aprendizaje de cuantización vectorial (LVQ) Mapa de autoorganización (SOM)

  • Métodos de regularización

    Es una extensión de otros métodos (generalmente métodos de regresión), que es más favorable a los modelos más simples y mejor deducidos.

    Regresión de la cresta Operador de reducción y selección absoluta mínima (LASSO) Red elástica

  • Aprendizaje del árbol de la decisión

    Los métodos de árbol de decisión construyen un modelo de decisión basado en el valor real de los datos. Los árboles de decisión se usan para resolver problemas de inclusión y regresión.

    Árbol de clasificación y regresión (CART) Dichotomisador iterativo 3 (ID3) C4.5 Detección automática de interacción por cuadrado de Chi (CHAID) Estómago de la decisión Bosque aleatorio Splines de regresión adaptativa multivariada (MARS) Máquinas para aumentar el gradiente (GBM)

  • Bajesia

    El método bayesiano es una aplicación del teorema de Bayes en la solución de problemas de clasificación y regresión.

    Los Bayes ingenuos Estimadores promediados de una sola dependencia (AODE) Red de creencias bayesianas (BBN)

  • Métodos del núcleo

    El método más conocido de los Kernel Method es el de las Support Vector Machines, que permiten mapear los datos de entrada en dimensiones más altas y modelación más fácil de algunos problemas de clasificación y regresión.

    Máquinas vectoriales de apoyo (SVM) Función de base radial (RBF) Análisis lineal discriminado (LDA)

  • Métodos de agrupación

    Clustering, en sí mismo, describe el problema y el método. Los métodos de agrupación generalmente se clasifican por el modo de modelado. Todos los métodos de agrupación organizan los datos con una estructura de datos uniforme para que cada grupo tenga lo más en común.

    K-Medios Maximización de las expectativas (EM)

  • Aprendizaje de reglas de asociación

    El aprendizaje de reglas de asociación es un método de extracción de reglas de datos que permiten descubrir las conexiones entre grandes cantidades de datos multidimensionales, y que pueden ser utilizadas por las organizaciones.

    Algoritmo a priori Algoritmo de eclat

  • Redes neuronales artificiales

    Las redes neurales artificiales se inspiraron en la estructura y la función de las redes neurales biológicas. Pertenece a la categoría de la coincidencia de patrones, y se utiliza a menudo para problemas de regresión y clasificación, pero existen cientos de algoritmos y composiciones de variaciones. Algunas de ellas son algoritmos clásicos populares (hablo de aprendizaje profundo por separado):

    Perceptrón Propagación inversa Red Hopfield Mapa de autoorganización (SOM) Aprendizaje de cuantización vectorial (LVQ)

  • Aprendizaje profundo

    El método de aprendizaje profundo es una actualización moderna de las redes neurales artificiales. En comparación con las redes neurales tradicionales, tiene una estructura de redes más compleja, y muchos de los métodos se centran en el aprendizaje semisupervisado.

    Máquina de Boltzmann restringida (RBM) Red de creencias profundas (DBN) Red de convolución Auto-codificadores apilados

  • Reducción de las dimensiones

    La reducción de dimensionalidad, al igual que el método de agrupación, busca y utiliza una estructura uniforme en los datos, pero hace que los datos se abstraigan y describan con menos información. Esto es útil para visualizar o simplificar datos.

    Análisis de los componentes principales (PCA) Regresión parcial de mínimos cuadrados (PLS) Mapeo de las montañas Escalado multidimensional (MDS) La búsqueda de la proyección

  • Métodos de conjunto

    Los métodos de ensamblaje se componen de muchos modelos pequeños, que son entrenados de forma independiente, llegan a conclusiones independientes y finalmente forman una predicción general. Mucho de la investigación se centra en qué modelos se utilizan y cómo se combinan estos modelos.

    El impulso Agregación con arranque (empaquetado) AdaBoost es el mejor Generalización apilada (mezcla) Máquinas para aumentar el gradiente (GBM) Bosque aleatorio

img

Este es un ejemplo de ajuste con métodos combinados (de wiki), donde cada método de incendios está representado en gris y el pronóstico final que se sintetizó finalmente está en rojo.

  • Otros recursos

    Este recorrido por algoritmos de aprendizaje automático tiene como objetivo darte una idea general de qué algoritmos existen y algunas de las herramientas de algoritmos de asociación.

    A continuación se muestran algunos otros recursos, pero no se preocupe, saber más algoritmos es mejor para usted, pero también puede ser útil tener un conocimiento profundo de algunos de ellos.

    • List of Machine Learning Algorithms: Este es un recurso en la wiki, aunque es completo, creo que la clasificación no es buena.
    • Categoría de algoritmos de aprendizaje automático: También es un recurso en la wiki, un poco mejor que el anterior, ordenado por orden alfabético.
    • CRAN Task View: Machine Learning & Statistical Learning: el paquete de lenguaje R para algoritmos de aprendizaje automático, para ver qué es lo que otros están usando mejor para ti.
    • Top 10 Algorithms in Data Mining: Este es un artículo publicado, ahora un libro, que incluye los algoritmos de minería de datos más populares.

Traducido por el columnista/desarrollador de Python


Más.