Sete técnicas de regressão que você deve dominar

Autora:Sonhos pequenos, Criado: 2016-12-18 10:22:43, Atualizado: 2016-12-18 11:08:56

Sete técnicas de regressão que você deve dominar


Este artigo explica a análise de regressão e seus benefícios, enfatizando o resumo das sete técnicas de regressão mais usadas e seus principais elementos, que devem ser dominadas: regressão linear, regressão lógica, regressão polinomial, regressão gradual, regressão de eixo, regressão de requisição, regressão ElasticNet, e, finalmente, apresenta os principais fatores para escolher o modelo de regressão correto. ** ** A análise de regressão do botão do compilador é uma ferramenta importante para a modelagem e análise de dados. Este artigo explica o significado e as vantagens da análise de regressão, concentrando-se em resumir as sete técnicas de regressão mais usadas, como regressão linear, regressão lógica, regressão polinomial, regressão gradual, regressão de cúpula, regressão de requisição, regressão ElasticNet e seus elementos-chave, e, finalmente, apresenta os fatores-chave para escolher o modelo de regressão correto.

  • O que é análise de regressão?

    A análise regressiva é uma técnica de modelagem preditiva que estuda as relações entre as variáveis causadas (objetivos) e as auto-variáveis (predicadores). Esta técnica é frequentemente usada para análise preditiva, modelos de sequência de tempo e relações causais entre as variáveis descobertas. Por exemplo, a melhor maneira de estudar a relação entre a condução imprudente de um motorista e o número de acidentes de trânsito é a regressão.

    A análise de regressão é uma ferramenta importante para a modelagem e análise de dados. Aqui, usamos curvas/linhas para ajustar esses pontos de dados, desta forma, as diferenças de distância da curva ou linha para os pontos de dados são mínimas.

    img

  • Por que usamos a análise regressiva?

    Como mencionado acima, a análise de regressão estima a relação entre duas ou mais variáveis.

    Por exemplo, em condições econômicas atuais, você deve estimar o crescimento das vendas de uma empresa. Agora, você tem dados recentes da empresa que mostram que as vendas cresceram cerca de 2,5 vezes mais do que o crescimento econômico. Então, usando a análise regressiva, podemos prever as vendas futuras da empresa com base em informações atuais e passadas.

    Os benefícios de usar a análise de regressão são muitos.

    Ele mostra uma relação significativa entre as variáveis autônomas e as causadas;

    Ele mostra a intensidade do efeito de várias variáveis sobre uma variável.

    A análise de regressão também permite comparar as interações entre variáveis que medem diferentes escalas, como a relação entre mudanças de preço e quantidade de atividades promocionais. Isso ajuda os pesquisadores de mercado, analistas de dados e cientistas de dados a excluir e estimar o melhor conjunto de variáveis para construir modelos de previsão.

  • Quantas tecnologias de regressão temos?

    Há uma grande variedade de técnicas de regressão utilizadas para a previsão. Estas técnicas têm três principais medidas (número de indivíduos da própria variável, tipo da variável e forma da linha de regressão).

    img

    Para aqueles que são criativos, você pode até criar um modelo de regressão que ainda não foi usado, se sentir a necessidade de usar uma combinação dos parâmetros acima. Mas antes de começar, veja os métodos de regressão mais usados:

    • 1. Regresso linear Regresso linear

      É uma das técnicas de modelagem mais conhecidas. A regressão linear é geralmente uma das técnicas de preferência quando se aprende modelos de previsão. Nessa técnica, como as variáveis são contínuas, elas podem ser contínuas ou dissociadas, e as linhas de regressão são lineares.

      A regressão linear usa uma linha reta ideal (ou seja, uma regressão linear) para estabelecer uma relação entre a variável causada (Y) e uma ou mais variáveis próprias (X).

      Ele é representado por uma equação, que é Y = a + b * X + e, onde a representa o intervalo, b representa a inclinação da reta e e é o ponto de erro. Esta equação pode prever o valor da variável alvo com base nas variáveis de previsão dadas.

      img

      A diferença entre a regressão unilinear e a regressão multilinear é que a regressão multilinear possui uma variável autônoma, enquanto a regressão unilinear geralmente possui apenas uma variável autônoma.

      Como se obtém a linha ideal (valores de a e b)?

      O problema pode ser facilmente resolvido com o mínimo de duplicados. O mínimo de duplicados é também o método mais comum para a conjugação de linhas de regressão. Para dados observacionais, ele calcula a linha de conjugação ideal minimizando a soma dos quadrados do desvio vertical de cada ponto de dados para a linha. Como, ao somar, o desvio é primeiro o quadrado, os valores positivos e negativos não são compensados.

      img

      Podemos usar os indicadores R-square para avaliar o desempenho do modelo. Para obter informações detalhadas sobre esses indicadores, leia: Indicadores de desempenho do modelo Parte 1, Parte 2.

      A questão é:

      • A relação entre a variável e a variável deve ser linear.
      • A regressão múltipla tem múltiplos conlineais, correlações e heterodiferenças.
      • A regressão linear é muito sensível a valores anormais. Isso pode afetar gravemente a linha de regressão e, finalmente, afetar o valor da previsão.
      • A multilinearidade aumenta o diferencial das estimativas de coeficientes, tornando as estimativas muito sensíveis a pequenas variações do modelo. O resultado é que as estimativas de coeficientes são instáveis.
      • No caso de múltiplas autovariáveis, podemos usar a seleção para a frente, a eliminação para trás e a filtragem gradual para selecionar as autovariáveis mais importantes.
    • 2. Logistic Regression Regresso lógico

      A regressão lógica é usada para calcular a probabilidade de que o evento Y = Success Y e o evento Y = Failure Y. Quando o tipo da variável pertence a variáveis binárias ((1/0, verdadeiro/falso, sim/não), devemos usar a regressão lógica. Aqui, o valor de Y é de 0 a 1, que pode ser representado pela seguinte equação.

      odds= p/ (1-p) = probability of event occurrence / probability of not event occurrence
      ln(odds) = ln(p/(1-p))
      logit(p) = ln(p/(1-p)) = b0+b1X1+b2X2+b3X3....+bkXk
      

      Na fórmula acima, a expressão de p tem uma probabilidade de ter uma característica. Você deve perguntar: por que usamos log log em nossa fórmula?

      Como aqui estamos usando uma distribuição de binomial (por causa de uma variável), precisamos escolher uma função de ligação que seja a melhor para essa distribuição. É a função Logit. Na equação acima, os parâmetros são escolhidos pela estimativa muito parecida da amostra observada, em vez de minimizar o quadrado e o erro (como usado na regressão normal).

      img

      A questão é:

      • Ele é amplamente utilizado em problemas de classificação.
      • A regressão lógica não requer que as variáveis sejam lineares e porque as variáveis são lineares. Pode lidar com todos os tipos de relações, pois usa uma conversão de log não linear para o índice de risco relativo OR da previsão.
      • Para evitar a super-ajuste e a sub-ajuste, devemos incluir todas as variáveis importantes. Uma boa maneira de garantir isso é estimar a regressão lógica usando o método de filtragem por etapas.
      • Requer um grande volume de amostras, porque, com um número menor de amostras, o efeito estimado de grande semelhança é muito pior do que o mínimo duplo normal.
      • As variáveis próprias não devem estar inter-relacionadas, ou seja, não ter múltiplas conlineiedades. No entanto, na análise e modelagem, podemos optar por incluir os efeitos das interações das variáveis classificadas.
      • Se o valor de uma variável é uma variável ordenada, ela é chamada de regressão lógica de ordem.
      • Se uma variável é multiclasse, ela é chamada de regressão lógica plural.
    • 3. Regressão polinomial

      Para uma equação de regressão, se o índice da própria variável for maior que 1, então ela é uma equação de regressão polinomial.

      y=a+b*x^2
      

      Nessa técnica de regressão, a linha de melhor ajuste não é uma linha reta, mas uma curva usada para ajustar pontos de dados.

      img

      Os principais:

      • Embora haja uma indução para se encaixar em um polinômio de alta frequência e obter erros mais baixos, isso pode levar a um superajuste. Você precisa regularmente desenhar um gráfico de relações para visualizar o caso de encaixe e focar em garantir que o encaixe seja razoável, sem superajuste e sem desajuste.

      img

      • Procure por pontos de curva claramente em ambos os lados, para ver se essas formas e tendências fazem sentido; polinomios mais elevados podem acabar produzindo conclusões estranhas.
    • 4. Regresso gradual stepwise

      Podemos usar esse tipo de regressão quando tratamos de várias variáveis automáticas. Nesta técnica, a seleção de variáveis automáticas é feita em um processo automático, que inclui operações não humanas.

      O feito é identificar variáveis importantes observando valores estatísticos, como R-square, t-stats e indicadores AIC. Regresso progressivo para ajustar o modelo através da adição/eliminação simultânea de covariáveis baseadas em padrões especificados.

      • O padrão de regressão estável faz duas coisas: adicionar e remover as previsões necessárias para cada passo.
      • O método de seleção para a frente começa com as previsões mais significativas do modelo e, em seguida, adiciona variáveis para cada passo.
      • A eliminação retrospectiva começa simultaneamente com todas as previsões do modelo e elimina as variáveis de menor significância em cada passo.
      • O objetivo desta técnica de modelagem é maximizar a capacidade de previsão usando o menor número de variáveis de previsão.
    • 5. Ridge Regression regresso

      Análise de regressão de níquel é uma técnica usada para a existência de múltiplos dados de convexidade (dependendo da altitude da variável). Em casos de convexidade múltipla, embora o mínimo de dois múltiplos (OLS) seja justo para cada variável, seu diferencial é tão grande que os valores observados se desviam e se afastam dos valores reais. O regressão de níquel reduz o erro padrão aumentando um desvio na estimativa do regresso.

      Acima, nós vimos uma equação de regressão linear.

      y=a+ b*x
      

      A equação também tem um termo de erro. A equação completa é:

      y=a+b*x+e (error term),  [error term is the value needed to correct for a prediction error between the observed and predicted value]
      => y=a+y= a+ b1x1+ b2x2+....+e, for multiple independent variables.
      

      Em uma equação linear, o erro de previsão pode ser dividido em dois subdivisões. Um é o desvio e outro é o diferencial. O erro de previsão pode ser causado por ambos os divisores ou por qualquer um deles. Aqui, discutiremos os erros relacionados causados pelo diferencial.

      A regressão do eixo resolve o problema de conlinearidade múltipla com o parâmetro de contração λ (lambda); veja a fórmula abaixo.

      img

      Nesta fórmula, há dois componentes. O primeiro é o mínimo binário, e o outro é o múltiplo λ de β2 (β-quadrado), onde β é o coeficiente correlato. Para reduzir o parâmetro, adicione-o ao mínimo binário para obter um diferencial muito baixo.

      A questão é:

      • Além de termos constantes, essa hipótese de regressão é semelhante à regressão ao mínimo de duas vezes;
      • Ele encolheu os valores dos coeficientes relacionados, mas não chegou a zero, o que indica que ele não tem a função de seleção característica.
      • Este é um método de regularização e usa a regularização L2.
    • 6. Regresso de Lasso

      É semelhante à regressão do eixo, e o operador de redução e seleção mínimo (Lasso) também penaliza o tamanho do valor absoluto do coeficiente de regressão. Além disso, ele pode reduzir a variação e melhorar a precisão do modelo de regressão linear. Veja a fórmula abaixo:

      img

      A regressão de Lasso é um pouco diferente da regressão de Ridge, que usa uma função de punição que é um valor absoluto, não um quadrado. Isso resulta em um valor de punição (ou igual à soma dos valores absolutos da estimativa de restrição) que faz com que o resultado da estimativa de alguns parâmetros seja igual a zero.

      A questão é:

      • Além de termos constantes, essa hipótese de regressão é semelhante à regressão ao mínimo de duas vezes;
      • Ele tem um coeficiente de contração próximo de zero (equivalente a zero), o que realmente ajuda na seleção de características;
      • Este é um método de regularização que usa a regularização L1;
      • Se um conjunto de variáveis é altamente relevante, Lasso escolhe uma delas e reduz a outra para zero.
    • 7.ElasticNet回归

      A ElasticNet é um misto de técnicas de regressão de Lasso e Ridge. Ela usa L1 para treinar e L2 como matriz de regularização de preferência. A ElasticNet é útil quando há várias características relacionadas.

      img

      A vantagem prática entre o Lasso e o Ridge é que ele permite que a ElasticNet herde alguma da estabilidade do Ridge no estado de ciclo.

      A questão é:

      • No caso de variáveis altamente relacionadas, produz efeitos de grupo;
      • O número de variáveis selecionadas é ilimitado;
      • O sistema pode suportar uma dupla contração.
      • Além das 7 técnicas de regressão mais usadas, você pode ver outros modelos, como Bayesian, Ecological e Robust Regression.
    • Como escolher o modelo de regressão correto?

      A vida é muitas vezes simples quando você só sabe uma ou duas técnicas. Eu conheço uma instituição de treinamento que diz aos seus alunos que se o resultado for contínuo, usem a regressão linear. Se for binário, usem a regressão lógica!

      No modelo de regressão multiclasse, é muito importante escolher a técnica mais adequada, com base no tipo de auto-variável e de variável derivada, no tamanho dos dados e em outras características básicas dos dados. Aqui estão os fatores críticos para escolher o modelo de regressão certo:

      A exploração de dados é uma parte indispensável da construção de modelos de previsão. Deve ser o primeiro passo na escolha do modelo adequado, por exemplo, para identificar as relações e os efeitos das variáveis.

      Para comparar as vantagens de diferentes modelos, podemos analisar diferentes parâmetros de indicadores, como parâmetros de significância estatística, R-quadrado, R-quadrado ajustado, AIC, BIC e pontos de erro, outro é o padrão Mallows-Cp. Isso é feito principalmente por comparar o modelo com todos os possíveis submodelos (ou selecioná-los cuidadosamente) e verificar os possíveis desvios que podem ocorrer em seu modelo.

      A verificação cruzada é a melhor maneira de avaliar o modelo de previsão. Aqui, divida o seu conjunto de dados em dois (um para treinar e outro para verificar) e use um diferencial médio simples entre o valor da observação e o valor da previsão para medir a precisão da sua previsão.

      Se o seu conjunto de dados é de várias variáveis misturadas, então você não deve escolher o método de seleção automática do modelo, porque você não deve querer colocar todas as variáveis no mesmo modelo ao mesmo tempo.

      Também dependerá da sua finalidade. Pode ocorrer que um modelo menos robusto seja mais fácil de implementar do que um modelo com alta significância estatística.

      Os métodos de regularização de regressão (Lasso, Ridge e ElasticNet) funcionam bem com múltiplas conlineações entre as variáveis de alta dimensão e do conjunto de dados.

Translado do CSDN


Mais.