**В этой статье объясняется регрессионный анализ и его преимущества, в основном резюмируются семь наиболее часто используемых регрессионных технологий и их ключевые элементы, такие как линейная регрессия, логическая регрессия, многополюсная регрессия, постепенная регрессия, контурная регрессия, регрессия на зацепке, регрессия ElasticNet, и, наконец, ключевые факторы выбора правильной модели регрессии. ** ** Анализ регрессии с помощью кнопок редактора является важным инструментом для моделирования и анализа данных. В этой статье объясняется смысл регрессионного анализа и его преимущества. В основном речь идет о семи наиболее часто используемых методах регрессии, таких как линейная регрессия, логическая регрессия, многополюсная регрессия, пошаговая регрессия, паутина регрессия, регрессия с зацеплением и регрессия ElasticNet, а также об их ключевых элементах, и, наконец, о ключевых элементах выбора правильной модели регрессии.**
Регрессионный анализ - это метод прогнозирующего моделирования, изучающий взаимосвязь между коэффициентом (задачей) и коэффициентом (предсказателем). Этот метод обычно используется для прогнозного анализа, моделирования временных последовательностей и причинно-следственных связей между обнаруженными переменными. Например, лучший способ исследования взаимосвязи между безрассудным вождением водителей и количеством дорожно-транспортных происшествий - это регрессия.
Регрессионный анализ является важным инструментом для моделирования и анализа данных. Здесь мы используем кривую/линию для сопоставления этих точек данных, таким образом, минимальная разница в расстоянии от кривой или линии до точки данных. Я объясню это подробно в следующей части.

Как уже говорилось выше, регрессионный анализ оценивает взаимосвязь между двумя или более переменными. Давайте приведем простой пример, чтобы понять это:
Например, в текущих экономических условиях вы хотите оценить рост продаж компании. Теперь у вас есть последние данные компании, которые показывают, что рост продаж примерно в 2,5 раза больше, чем рост экономики.
Использование регрессионного анализа имеет много преимуществ. В частности:
Она показывает существенную связь между самостоятельными и обусловленными переменными;
Она показывает, насколько сильно влияют несколько самоизменных на одну производящую переменную.
Регрессионный анализ также позволяет сравнивать взаимосвязи между переменными, которые измеряют различные масштабы, такие как связь между изменениями цен и количеством рекламных акций. Это помогает исследователям рынка, аналитикам данных и ученым по данным исключить и оценить оптимальный набор переменных для построения прогнозных моделей.
Существует множество различных методов регрессии, используемых для прогнозирования. Основными из них являются три измерения: количество самоизменных, тип самоизменных и форма линий регрессии. Мы подробно рассмотрим их в следующих разделах.

Для тех, кто изобретателен, можно даже создать неиспользованную модель регрессии, если вам кажется необходимым использовать комбинацию из вышеперечисленных параметров. Но прежде чем вы начнете, узнайте о наиболее часто используемых методах регрессии:
Это одна из наиболее известных методов моделирования. Линейное регрессирование обычно является одним из методов, избранных для изучения прогнозных моделей. В этой технике, поскольку переменные являются непрерывными, самоизменные могут быть непрерывными или дисперсными, характер линии регрессии является линейным.
Линейная регрессия использует наилучшую совпадающую прямую ((т. е. регрессионную линию) для установления отношения между производной переменной ((Y) и одной или несколькими производной переменной ((X)).
Это выражено в уравнении: y=a+b.*X + e, где a представляет собой сечение, b представляет собой наклон прямой линии, а e - погрешность. Это уравнение позволяет прогнозировать значение целевой переменной в зависимости от заданной прогнозной переменной (s).

Отличие однолинейной регрессии от многолинейной регрессии состоит в том, что многолинейная регрессия имеет ((>1) самостоятельную переменную, в то время как однолинейная регрессия обычно имеет только одну самостоятельную переменную. Теперь вопрос в том, как мы получим оптимальную линию соответствия?
Как получить значение наилучшей линии сочетания (a и b)?
Эту задачу можно легко выполнить с помощью наименьшего двоичного умножения. Наименьшее двоичное умножение также является наиболее часто используемым методом для сопоставления регрессионных линий. Для наблюдений он вычисляет наилучшую сопоставимую линию, минимизируя сумму квадратных вертикальных отклонений от линии каждой точки данных. Поскольку при сложении отклонения первые квадратные, положительные и отрицательные значения не компенсируются.

Мы можем использовать R-квадратные показатели для оценки производительности моделей. Подробнее об этих показателях читайте: Показатели производительности моделей Part 1, Part 2 .
Примечание:
Логическая регрессия используется для вычисления вероятности совпадения событий Success и Failure. Мы должны использовать логическую регрессию, когда тип переменной относится к двоичной переменной ((1⁄0, true/false, yes/no). Здесь значение Y от 0 до 1, которое может быть выражено следующим уравнением:
odds= p/ (1-p) = probability of event occurrence / probability of not event occurrence
ln(odds) = ln(p/(1-p))
logit(p) = ln(p/(1-p)) = b0+b1X1+b2X2+b3X3....+bkXk
В приведенных выше формулах p обозначает вероятность того, что оно имеет какую-то особенность. Вы должны задать вопрос: почему мы используем логические числа в формулах?
Поскольку здесь мы используем двоичное распределение ((из переменной), нам нужно выбрать связующую функцию, наиболее подходящую для этого распределения. Это функция Logit. В вышеуказанном уравнении параметры выбираются путем оценки величины наибольшей вероятности наблюдения за образцом, а не путем минимизации квадрата и погрешности (как в обычной регрессии).

Примечание:
Для регрессивного уравнения, если индекс самой переменной больше 1, то оно является многополюсным регрессивным уравнением.
y=a+b*x^2
В этой регрессионной технике оптимальная линия соответствия не является прямой, а является кривой, используемой для соответствия точек данных.

Основные моменты:

При обработке нескольких самовариантов мы можем использовать эту форму регрессии. В этой технике выбор самовариантов выполняется в автоматическом процессе, включающем нечеловеческие действия.
Этот подвиг заключается в том, чтобы идентифицировать важные переменные, наблюдая за статистическими значениями, такими как R-square, t-stats и AIC. Постепенная регрессия приспосабливается к модели путем одновременного добавления/удаления коэффициентов, основанных на заданных критериях. Ниже перечислены некоторые из наиболее часто используемых методов поэтапной регрессии:
Гиперрегрессионный анализ - это технология, используемая при наличии данных с множественной комолинейностью (высокой корреляцией с переменной). В случае с множественной комолинейностью, хотя минимальное двоичное умножение (OLS) является справедливым для каждой переменной, их различия настолько велики, что наблюдаемые значения смещаются и удаляются от истинных значений. Гиперрегрессионный анализ снижает стандартную ошибку, добавляя одно из отклонений к оценке возврата.
Выше мы видели линейную регрессию.
y=a+ b*x
Это уравнение также имеет элемент погрешности.
y=a+b*x+e (error term), [error term is the value needed to correct for a prediction error between the observed and predicted value]
=> y=a+y= a+ b1x1+ b2x2+....+e, for multiple independent variables.
В линейном уравнении ошибка прогноза может быть разбита на 2 поддобавки. Одна - отклонение, другая - дифференциал. Ошибка прогноза может быть вызвана этими двумя добавками или любой из них. Здесь мы поговорим об ошибках, вызванных дифференциалом.
Глубокая регрессия решает множественную комолинейную задачу с помощью сжатого параметра λ{\displaystyle \lambda } . См. формулу ниже

В этой формуле имеются две составляющие. Первая - наименьшее двоичное число, другая - кратность λ β2 ((β-квадрат), где β является соответствующим коэффициентом. Для уменьшения параметров добавьте его к наименьшему двоичному числу, чтобы получить очень низкий дифференциал.
Примечание:
Он похож на гибридный регресс, а Lasso (Least Absolute Shrinkage and Selection Operator) также наказывает за абсолютный размер коэффициента регрессии. Кроме того, он способен уменьшить степень изменения и повысить точность линейной регрессионной модели.

Лассо-регрессия немного отличается от Ридж-регрессии тем, что использует функцию наказания, которая является абсолютной, а не квадратной. Это приводит к тому, что наказание (или сумма абсолютных значений, равная обязывающей оценке) приводит к тому, что некоторые параметры оценочного результата равны нулю. Чем больше значение наказания используется, тем больше дальнейшая оценка приближает сокращенное значение к нулю. Это приводит к тому, что мы выбираем переменную из данных n переменных.
Примечание:
ElasticNet является гибридом технологий регрессии Лассо и Риджа. Он использует L1 для обучения и L2 в качестве приоритетной матрицы для нормализации. ElasticNet полезен, когда есть несколько связанных признаков.

Фактическое преимущество между Lasso и Ridge заключается в том, что это позволяет ElasticNet унаследовать некоторую стабильность Ridge в циклическом состоянии.
Примечание:
Как правильно выбрать модель регрессии?
Жизнь обычно проще, когда вы знаете только одну или две техники. Я знаю одну учебную организацию, которая сказала своим студентам, что если результат непрерывный, то используйте линейную регрессию. Если двоичный, то используйте логическую регрессию! Однако, чем больше вариантов в нашей обработке, тем труднее выбрать правильный.
В многообразной регрессионной модели очень важно выбрать наиболее подходящую технологию на основе типа самостоятельных и произвольных переменных, измерений данных и других основных характеристик данных. Вот ключевые факторы, которые помогут вам выбрать правильную регрессионную модель:
Изучение данных является неотъемлемой частью построения прогнозных моделей. Это должен быть первоочередной шаг при выборе подходящей модели, например, для выявления взаимосвязей и влияния переменных.
Для сравнения преимуществ различных моделей мы можем анализировать различные показательные параметры, такие как параметры статистической значимости, R-square, Adjusted R-square, AIC, BIC, а также элементы погрешности. Другой является Mallows’ Cp rule. Это в основном происходит путем сравнения модели со всеми возможными подмоделями (или их тщательного выбора) и проверки возможных отклонений в вашей модели.
Кроссовка является наиболее эффективным способом оценки прогнозной модели. Здесь вы делите свой набор данных на две части (одна для тренировки, другая для проверки) и используете простую уравнительную разницу между наблюдаемым и прогнозируемым значением для измерения точности вашего прогноза.
Если ваш набор данных состоит из нескольких смешанных переменных, то вы не должны использовать метод автоматического выбора модели, потому что вы не хотите, чтобы все переменные находились в одной модели одновременно.
Это также будет зависеть от ваших целей. Может возникнуть ситуация, когда менее мощная модель будет более легко реализована, чем модель с высокой статистической значимостью.
Методы регрессионной нормализации ((Lasso, Ridge и ElasticNet) хорошо работают в условиях многократной комолинейности между высокими измерениями и переменными набора данных.
Продолжение из CSDN