Les sept techniques de régression que vous devriez maîtriser

Auteur:Le petit rêve, Créé à: 2016-12-18 10:22:43, Mis à jour à: 2016-12-18 11:08:56

Les sept techniques de régression que vous devriez maîtriser


Cet article explique l'analyse de régression et ses avantages, en mettant l'accent sur la régression linéaire, la régression logique, la régression polynomielle, la régression progressive, la régression de l'anneau, la régression des requêtes, la régression ElasticNet, ainsi que les sept techniques de régression les plus couramment utilisées et leurs éléments clés à maîtriser. Enfin, il présente les facteurs clés pour choisir le bon modèle de régression. Je vous en prie. Je vous en prie. L'analyse de régression des boutons de compilateur est un outil important pour la modélisation et l'analyse des données. Cet article explique les implications de l'analyse de régression et ses avantages, en mettant l'accent sur la synthèse des sept techniques de régression les plus couramment utilisées, à savoir la régression linéaire, la régression logique, la régression polynomicale, la régression progressive, la régression de l'ancrage, la régression des requêtes, la régression ElasticNet et leurs éléments clés. Enfin, il présente les facteurs clés pour choisir le bon modèle de régression.

  • Quelle est l'analyse de régression?

    L'analyse régressive est une technique de modélisation prédictive qui étudie les relations entre les variables (objectifs) et les variables (préditeurs). Cette technique est souvent utilisée pour l'analyse prédictive, les modèles de séquences temporelles et les relations de causalité entre les variables découvertes. Par exemple, la relation entre la conduite imprudente des conducteurs et le nombre d'accidents de la route est la meilleure méthode d'étude.

    L'analyse de régression est un outil important pour la modélisation et l'analyse des données. Ici, nous utilisons des courbes/lignes pour adapter ces points de données, de sorte que la différence de distance de la courbe ou de la ligne aux points de données soit la plus faible. Je vais expliquer cela en détail dans la section suivante.

    img

  • Pourquoi utilisons-nous l'analyse de régression?

    Comme mentionné ci-dessus, l'analyse de régression évalue la relation entre deux ou plusieurs variables. Voici un exemple simple pour le comprendre:

    Par exemple, dans les conditions économiques actuelles, vous devez estimer la croissance des ventes d'une entreprise. Maintenant, vous avez les données les plus récentes de l'entreprise qui montrent que les ventes augmentent environ 2,5 fois la croissance économique.

    Les avantages de l'analyse de régression sont nombreux.

    Il montre une relation significative entre les variables autonomiques et les variables causales.

    Il indique l'intensité de l'influence de plusieurs variables sur une variable.

    L'analyse de régression permet également de comparer les interactions entre des variables de différentes tailles, telles que les liens entre les variations de prix et le nombre d'activités promotionnelles. Cela aide les chercheurs en marché, les analystes de données et les scientifiques des données à exclure et à estimer le meilleur ensemble de variables pour construire des modèles de prévision.

  • Combien de technologies de régression avons-nous?

    Il existe une grande variété de techniques de régression utilisées pour les prédictions. Ces techniques ont principalement trois mesures (nombre d'individus de la variable, type de variable et forme de la ligne de régression) que nous aborderons en détail dans les sections suivantes.

    img

    Pour ceux qui sont créatifs, vous pouvez même créer un modèle de régression qui n'a pas été utilisé si vous sentez qu'il est nécessaire d'utiliser une combinaison des paramètres ci-dessus. Mais avant de commencer, apprenez les méthodes de régression les plus couramment utilisées:

    • 1. Régression linéaire

      C'est l'une des techniques de modélisation les plus connues. La régression linéaire est généralement l'une des techniques de prédilection dans l'apprentissage des modèles de prédiction. Dans cette technique, les variables étant continues, les variables autonomes peuvent être continues ou discrètes, et la nature des lignes de régression est linéaire.

      La régression linéaire utilise une ligne droite optimale (c'est-à-dire une ligne de régression) pour établir une relation entre la variable causée (Y) et une ou plusieurs variables indépendantes (X).

      Il est représenté par une équation, Y = a + b * X + e, où a représente l'intersection, b représente l'inclinaison d'une ligne droite et e est le terme d'erreur. Cette équation permet de prédire la valeur de la variable cible en fonction des variables de prédiction données.

      img

      La différence entre la régression unilineale et la régression multilineale est que la régression multilineale a < 1) une variable autonome, alors que la régression unilineale a généralement une seule variable autonome. La question est maintenant de savoir comment obtenir une ligne de correspondance optimale.

      Comment obtenir la ligne de correspondance optimale (valeur de a et b)?

      Le problème peut être facilement résolu avec le plus petit dixième. Le plus petit dixième est également la méthode la plus couramment utilisée pour faire correspondre les lignes de régression. Pour les données d'observation, il calcule la ligne de correspondance optimale en minimisant la somme des squares de la déviation verticale de chaque point de données vers la ligne.

      img

      Nous pouvons utiliser les indicateurs R-square pour évaluer la performance du modèle. Pour plus d'informations sur ces indicateurs, vous pouvez lire: Indicateurs de performance du modèle Partie 1, Partie 2.

      Le point:

      • La relation entre la variable elle-même et la variable causée doit être linéaire.
      • La régression polynomielle est multi-collinéaire, autorelative et hétérogène.
      • La régression linéaire est très sensible aux valeurs d'anomalie. Elle peut affecter gravement la ligne de régression et, finalement, affecter la valeur de prévision.
      • La multilinéalité augmente les écarts des estimations de coefficients, ce qui rend les estimations très sensibles à de légères variations du modèle. Le résultat est une estimation instable des coefficients.
      • Dans le cas de plusieurs auto-variables, nous pouvons choisir les auto-variables les plus importantes en utilisant la méthode de sélection vers l'avant, la méthode de sélection vers l'arrière et la méthode de filtrage progressif.
    • 2. Régression logique

      La régression logique est utilisée pour calculer la probabilité d'événements de type Y = Success Y et de l'événement de type Y = Failure Y. Lorsque le type de la variable dépend de variables binaires ((1 / 0, vrai / faux, oui / non), nous devrions utiliser la régression logique. Ici, la valeur de Y va de 0 à 1, elle peut être exprimée par l'équation suivante:

      odds= p/ (1-p) = probability of event occurrence / probability of not event occurrence
      ln(odds) = ln(p/(1-p))
      logit(p) = ln(p/(1-p)) = b0+b1X1+b2X2+b3X3....+bkXk
      

      Dans la formule ci-dessus, l'expression de p a une certaine probabilité de caractéristique. Vous devriez vous poser la question suivante: pourquoi devrions-nous utiliser le logarithme dans la formule?

      Parce que nous utilisons ici une distribution binaire (par variable), nous devons choisir une fonction de liaison qui est la meilleure pour cette distribution. C'est la fonction Logit. Dans l'équation ci-dessus, les paramètres sont choisis en observant les estimations très similaires de l'échantillon, plutôt que de minimiser le carré et l'erreur (comme dans la régression ordinaire).

      img

      Le point:

      • Il est largement utilisé pour les problèmes de classification.
      • La régression logique n'exige pas que les variables elles-mêmes et les variables de cause soient des relations linéaires. Elle peut traiter toutes sortes de relations car elle utilise une conversion log non linéaire pour l'indice de risque relatif OR de la prédiction.
      • Afin d'éviter les sur-adaptations et les sous-adaptations, nous devrions inclure toutes les variables importantes. Une bonne façon d'en être sûr est d'utiliser une méthode de filtrage progressif pour estimer la régression logique.
      • Il nécessite un grand nombre d'échantillons, car l'effet estimé de manière extrêmement similaire est inférieur à celui du double minimum ordinaire dans les cas où le nombre d'échantillons est faible.
      • Les variables ne doivent pas être liées entre elles, c'est-à-dire qu'elles ne sont pas multilinéaires. Cependant, dans l'analyse et la modélisation, nous pouvons choisir d'inclure les effets des interactions des variables de catégorisation.
      • Si la valeur de la variable due est une variable ordonnée, elle est appelée régression logique ordonnée.
      • Si la variable est plurielle, elle est appelée régression logique plurielle.
    • 3. Régression polynomial

      Pour une équation de régression, si l'indice de la variable autonome est supérieur à 1, alors elle est une équation de régression polynomielle.

      y=a+b*x^2
      

      Dans cette technique de régression, la ligne de correspondance optimale n'est pas une ligne droite mais une courbe utilisée pour correspondre aux points de données.

      img

      Les points forts:

      • Bien qu'il y ait une induction qui peut s'adapter à un polynôme à haute fréquence et obtenir des erreurs plus faibles, cela peut entraîner un sur-ajustement. Vous devez souvent tracer des diagrammes de relations pour voir les conditions d'ajustement et vous concentrer sur la garantie d'un ajustement raisonnable, sans sur-ajustement ni sous-ajustement. Voici un exemple qui peut aider à comprendre:

      img

      • Cherchez clairement les points de courbe aux deux extrémités pour voir si ces formes et tendances sont significatives.
    • 4. Régression par pas

      Nous pouvons utiliser cette forme de régression lorsque nous traitons plusieurs variables automatiques. Dans cette technique, la sélection des variables automatiques est effectuée dans un processus automatique, qui comprend des opérations non humaines.

      L'exploit est d'identifier les variables importantes en observant des valeurs statistiques telles que les indicateurs R-square, t-stats et AIC. La régression progressive s'adapte au modèle en ajoutant/supprimant simultanément des co-variables basées sur des critères spécifiés. Voici quelques-unes des méthodes de régression progressive les plus couramment utilisées:

      • La régression progressive standard fait deux choses: ajouter et supprimer les prédictions requises pour chaque étape.
      • La méthode de sélection vers l'avant commence par les prédictions les plus significatives du modèle, puis ajoute des variables pour chaque étape.
      • L'élimination rétrograde commence simultanément avec toutes les prédictions du modèle, puis élimine les variables les moins significatives à chaque étape.
      • L'objectif de cette technique de modélisation est de maximiser la capacité de prédiction en utilisant le moins de variables de prédiction possible. C'est aussi une des méthodes utilisées pour traiter les ensembles de données à haute dimension.
    • Régression de la crête

      L'analyse de la régression de la couche est une technique utilisée pour des données à multiple conjonctivité. Dans le cas de la conjonctivité multiple, l'erreur standard est réduite en ajoutant une déviation à l'estimation de la régression.

      En haut, nous avons vu une équation de régression linéaire.

      y=a+ b*x
      

      L'équation complète est:

      y=a+b*x+e (error term),  [error term is the value needed to correct for a prediction error between the observed and predicted value]
      => y=a+y= a+ b1x1+ b2x2+....+e, for multiple independent variables.
      

      Dans une équation linéaire, l'erreur de prédiction peut être décomposée en deux sous-composantes. Une est la déviation et une est la différence. L'erreur de prédiction peut être causée par ces deux composantes ou par l'une ou l'autre.

      La régression de la couche est résolue par le paramètre de rétrécissement λ (lambda). Voir la formule ci-dessous.

      img

      Dans cette formule, il y a deux composants. Le premier est le binôme le plus petit et le second est le nombre de fois où β2 (β-carré) est le coefficient correspondant. Pour réduire le paramètre, on ajoute celui-ci au binôme le plus petit pour obtenir une très faible différence de carré.

      Le point:

      • Sauf pour les constantes, cette hypothèse de régression est similaire à la régression au double minimum.
      • Il réduit la valeur des coefficients associés, mais n'atteint pas zéro, ce qui indique qu'il n'a pas de fonction de sélection caractéristique.
      • Il s'agit d'une méthode de régularisation et utilise la régularisation L2.
    • 6. Rétrogradation de la socle de Lasso

      Il est similaire à la régression de la pyramide, et le Lasso (Least Absolute Shrinkage and Selection Operator) punit également la taille de la valeur absolue du coefficient de régression. En outre, il peut réduire la variation et améliorer la précision du modèle de régression linéaire. Voir la formule ci-dessous:

      img

      La régression de Lasso diffère un peu de la régression de Ridge en ce qu'elle utilise des fonctions de punition qui sont des valeurs absolues, et non des squares. Cela entraîne une punition (ou la somme des valeurs absolues de l'estimation de contrainte) qui équivaut à zéro pour certains paramètres.

      Le point:

      • Sauf pour les constantes, cette hypothèse de régression est similaire à la régression au double minimum.
      • Il a un coefficient de contraction proche de zéro ((= zéro), ce qui contribue vraiment au choix des caractéristiques;
      • Il s'agit d'une méthode de normalisation qui utilise la normalisation L1.
      • Si un ensemble de variables prédites est fortement lié, Lasso choisit l'une d'entre elles et réduit les autres à zéro.
    • 7.ElasticNet回归

      ElasticNet est un mélange des techniques de Lasso et de Ridge regression. Il utilise L1 pour l'entraînement et L2 comme matrice de normalisation prioritaire. ElasticNet est utile lorsque plusieurs caractéristiques sont associées.

      img

      L'avantage pratique entre Lasso et Ridge est qu'il permet à ElasticNet d'hériter de la stabilité de Ridge dans le cycle.

      Le point:

      • Dans le cas des variables hautement pertinentes, il produit un effet de groupe;
      • Il n'y a pas de limite au nombre de variables à choisir.
      • Il peut supporter une double contraction.
      • En plus des 7 techniques de régression les plus couramment utilisées, vous pouvez consulter d'autres modèles tels que Bayesian, Ecological et Robust Regression.
    • Comment choisir correctement un modèle de régression?

      La vie est souvent simple lorsque vous ne connaissez qu'une ou deux techniques. Je connais un organisme de formation qui a dit à ses étudiants d'utiliser la régression linéaire si le résultat est continu. Si le résultat est binaire, utilisez la régression logique.

      Dans les modèles de régression multiclasses, il est important de choisir la technique la plus appropriée en fonction du type d'auto-variante et de la variante due, de la dimension des données et d'autres caractéristiques fondamentales des données. Voici les facteurs clés pour choisir le bon modèle de régression:

      L'exploration des données est une partie incontournable de la construction d'un modèle de prévision. Elle devrait être la première étape dans le choix du modèle approprié, par exemple pour identifier les relations et les effets des variables.

      Pour les avantages de différents modèles, nous pouvons analyser différents paramètres d'indicateurs tels que les paramètres de signification statistique, le R-square, le R-square ajusté, l'AIC, le BIC et les éléments d'erreur, l'autre étant le Mallows-Cp-Guideline. Cela consiste principalement à comparer le modèle à tous les sous-modèles possibles (ou à les choisir avec soin) et à vérifier les écarts qui peuvent apparaître dans votre modèle.

      La vérification croisée est la meilleure façon d'évaluer le modèle de prédiction. Ici, divisez votre ensemble de données en deux parties (une pour la formation et une pour la vérification).

      Si votre ensemble de données est composé de plusieurs variables mixtes, vous ne devriez pas choisir la méthode de sélection automatique du modèle, car vous ne devriez pas vouloir mettre toutes les variables dans le même modèle en même temps.

      Cela dépendra également de vos objectifs. Il peut arriver qu'un modèle moins puissant soit plus facile à réaliser qu'un modèle de haute signification statistique.

      Les méthodes de normalisation de régression (Lasso, Ridge et ElasticNet) fonctionnent bien dans des conditions de multi-collinéalité entre les variables de haute dimension et de l'ensemble de données.

Transférée de CSDN


Plus de