Семь методов регрессии, которыми вы должны владеть

Автор:Маленькие мечты, Создано: 2016-12-18 10:22:43, Обновлено: 2016-12-18 11:08:56

Семь методов регрессии, которыми вы должны владеть


В статье объясняется регрессионный анализ и его преимущества, сосредоточивается на обобщении семи наиболее часто используемых регрессионных методов и их ключевых элементов: линейный регресс, логический регресс, многопунктный регресс, постепенный регресс, редукторный регресс, регресс запроса, регресс ElasticNet, и, наконец, представляет ключевые факторы для выбора правильной модели регрессии. ** ** Ключевой регрессионный анализ с помощью компиляторов является важным инструментом для моделирования и анализа данных. В статье объясняется, что такое регрессионный анализ и его преимущества. В этой статье подробно обобщены семь наиболее распространенных методов регрессии: линейный регресс, логический регресс, многоточечный регресс, постепенный регресс, регрессия с помощью гипса, регрессия с помощью запросов, регрессия ElasticNet и их ключевые элементы.

  • Что такое регрессионный анализ?

    Регрессивный анализ - это технология прогнозирования, которая изучает отношения между причиной (цель) и причиной (прогнозчик). Эта технология обычно используется для прогнозирования, моделирования временных последовательностей и причинно-следственных связей между обнаруженными переменными. Например, лучший метод исследования - регрессивность.

    Регрессионный анализ является важным инструментом для моделирования и анализа данных. Здесь мы используем кривые/линии, чтобы сопоставить эти точки данных, и в этом случае расстояние от кривой или линии до точки данных будет минимальным. Я объясню это подробно в следующих разделах.

    img

  • Почему мы используем регрессивный анализ?

    Как уже упоминалось выше, регрессивный анализ оценивает отношения между двумя или более переменными.

    Например, в текущих экономических условиях вы хотите оценить рост продаж компании. Теперь у вас есть последние данные компании, которые показывают, что рост продаж примерно в 2,5 раза превышает рост экономики.

    Полезные стороны регрессионного анализа:

    Он показывает значительную связь между самоизменными и коэффициентными;

    Это указывает на силу влияния нескольких самоизменных на одну из переменных.

    Регрессивный анализ также позволяет нам сравнивать взаимодействие между измеряемыми переменными разных масштабов, например, между изменениями цен и количеством рекламных акций. Это помогает рыночным исследователям, аналитикам данных и данным ученым исключить и оценить наилучший набор переменных для построения прогнозных моделей.

  • Сколько у нас есть технологий регрессии?

    Существует множество различных методов регрессии, используемых для прогнозирования. Эти методы имеют три основных измерения (число индивидов, типы и форма регрессии). Мы рассмотрим их в деталях в разделе ниже.

    img

    Для творческих людей, если вы чувствуете необходимость использовать комбинацию из этих параметров, вы можете даже создать модель регрессии, которая не используется. Но прежде чем вы начнете, ознакомьтесь с наиболее распространенными методами регрессии:

    • 1. Линейная регрессия Линейная регрессия

      Это одна из наиболее известных модельных технологий. Линейная регрессия часто является одной из предпочтительных для изучения моделей прогнозирования. В этой технике, поскольку переменные являются непрерывными, самопеременные могут быть непрерывными или дискретными.

      Линейная регрессия использует оптимально подходящую прямую (т.е. регрессию) для установления отношения между коэффициентом (Y) и одной или несколькими самок (X).

      Это выражено уравнением Y = a + b * X + e, где a - сечение, b - наклон прямой линии, e - погрешность. Уравнение может предсказывать значение целевой переменной на основе данной предсказательной переменной (s).

      img

      Разница между однолинейной и многолинейной регрессией заключается в том, что многолинейная регрессия имеет ((> 1) самостоятельную переменную, в то время как однолинейная регрессия обычно имеет только одну самостоятельную переменную.

      Как получить оптимальные значения линий (a и b)?

      Эта задача может быть легко выполнена с помощью минимального двоичного умножения. Минимальное двоичное умножение также является наиболее распространенным методом для соответствия регрессионной линии. Для наблюдений он вычисляет оптимальное соответствие путем минимизации суммы квадратов вертикального отклонения каждой точки данных от линии.

      img

      Мы можем использовать показатели R-square для оценки производительности модели. Для получения более подробной информации об этих показателях читайте: показатели производительности модели Часть 1, Часть 2.

      Ключевые моменты:

      • Между самой переменной и причинительной переменной должна быть линейная связь.
      • Многообразное регрессирование имеет многочисленные солинейности, самосоотношения и дифференциальность.
      • Линейная регрессия очень чувствительна к отклонениям. Она может серьезно повлиять на линию регрессии и, в конечном итоге, на прогнозные значения.
      • Многолинейность увеличивает дифференциацию оценок коэффициентов, что делает оценки очень чувствительными при незначительных изменениях модели. В результате оценки коэффициентов нестабильны.
      • В случае с несколькими самостоятельными переменными, мы можем использовать форвардный выбор, задним удалением и постепенным фильтрацией, чтобы выбрать наиболее важные самостоятельные переменные.
    • 2. Логистическая регрессия

      Логическое регрессирование используется для вычисления вероятности событий Y=Success Y и Y=Failure Y. Если тип данной переменной относится к бинарным ((1/0, true/false, yes/no) переменным, мы должны использовать логическое регрессирование. Здесь значение Y от 0 до 1, которое может быть выражено следующей формулой.

      odds= p/ (1-p) = probability of event occurrence / probability of not event occurrence
      ln(odds) = ln(p/(1-p))
      logit(p) = ln(p/(1-p)) = b0+b1X1+b2X2+b3X3....+bkXk
      

      В приведенных выше формулах p имеет определенную вероятность. Вы должны задать вопрос: почему мы используем логарифм в формуле?

      Поскольку здесь мы используем бинарное распределение (из-за переменных), нам нужно выбрать наилучшую для этого распределения связующую функцию. Это функция Логита. В приведенном выше уравнении параметры выбираются путем наблюдения за очень похожими оценками выбранного образца, а не путем минимизации квадрата и погрешности (как это используется в обычном регрессии).

      img

      Ключевые моменты:

      • Он широко используется в классификационных вопросах.
      • Логическое регрессирование не требует самоизменных и потому, что переменные являются линейными отношениями. Оно может обрабатывать различные типы отношений, поскольку использует нелинейную логическую конверсию для прогнозируемого относительного риска OR.
      • Для того, чтобы избежать чрезмерного соответствия и несоответствия, мы должны включать все важные переменные. Хороший способ убедиться в этом - использовать пошаговый отбор, чтобы оценить логическое возвращение.
      • Это требует большого количества образцов, поскольку при небольшом количестве образцов очень похожие оценки оказываются в два раза хуже, чем обычные минимальные.
      • Самостоятельные переменные не должны быть взаимосвязаны, т. е. не иметь многолинейной солинейности. Однако в анализе и моделировании мы можем выбрать включение влияния взаимодействия классификационных переменных.
      • Если значение зависимой переменной является упорядоченной переменной, то это называется логической регрессией упорядочения.
      • Если данная переменная является многоклассной, то она называется логической регрессией множества.
    • 3. Полиномиальная регрессия

      Для регрессионного уравнения, если индекс самой переменной больше 1, то оно является многочленным регрессионным уравнением.

      y=a+b*x^2
      

      В этой регрессионной технике оптимальная линия соответствия не прямая линия, а кривая, используемая для соответствия точек данных.

      img

      Основные моменты:

      • Хотя может быть индукция, которая может соответствовать высокому многообразию и получить меньшую ошибку, это может привести к пересочетанию. Вам нужно часто рисовать диаграммы отношений, чтобы увидеть состояние соответствия, и сосредоточиться на том, чтобы гарантировать разумное соответствие, не имеющее ни пересочетания, ни несоответствия. Ниже приведен пример, который поможет понять:

      img

      • Ясно искать точки кривых на обеих концах, чтобы увидеть, что эти формы и тенденции имеют смысл. Более высокие политомы могут в конечном итоге привести к странным выводам.
    • 4. Постепенная регрессия

      При обработке нескольких самостоятельных переменных мы можем использовать эту форму регрессии. В этой технике выбор самостоятельной переменной выполняется в автоматическом процессе, включая нелюдские операции.

      Этот подвиг позволяет идентифицировать важные переменные путем наблюдения за значениями статистики, такими как R-square, t-stats и AIC.

      • Стандартная поэтапная регрессия делает две вещи: добавляет и удаляет предсказания, необходимые для каждого шага.
      • Прогрессивный выбор начинается с наиболее заметных прогнозов в модели, а затем добавляется переменная для каждого шага.
      • Задним числом устранение начинается одновременно со всеми прогнозами модели, а затем устраняется наименее значимая переменная на каждом этапе.
      • Целью этой моделирования является использование наименьшего числа прогнозируемых переменных для максимальной прогнозируемости. Это также один из способов обработки высокомерных наборов данных.
    • 5. Ридж регрессионная регрессия

      Анализ регрессивности хима - это технология, используемая для наличия множества солинарных данных. В случае множественной солинарности, хотя минимальное двойное множение (OLS) справедливо для каждой из переменных, их различия настолько велики, что наблюдаемые значения отклоняются и удаляются от истинных значений.

      Выше мы видим линейное уравнение регрессии.

      y=a+ b*x
      

      У этого уравнения также есть предложение об ошибке.

      y=a+b*x+e (error term),  [error term is the value needed to correct for a prediction error between the observed and predicted value]
      => y=a+y= a+ b1x1+ b2x2+....+e, for multiple independent variables.
      

      В линейном уравнении ошибка предсказания может быть разбита на два подраздела. Один из них - отклонение, другой - расстояние. Ошибка предсказания может быть вызвана этими двумя подразделами или любой из них. Здесь мы обсудим ошибки, вызванные расстоянием.

      Возвращение х с помощью сжатия параметров λ ((lambda) решает многолинейную солинейность; см. формулу ниже.

      img

      В этой формуле есть два компонента. Первый - это наименьший бинарный пункт, а другой - λ крат β2 ((β-квадрат), где β является соответствующим коэффициентом. Для сжатия параметров добавить его к наименьшему бинарному пункту, чтобы получить очень низкий дифференциал.

      Ключевые моменты:

      • За исключением константы, такая вертикаль является аналогичной версии минимальной вертикали двойного.
      • Он сокращает значения соответствующих коэффициентов, но не достигает нуля, что означает, что у него нет функции выбора.
      • Это метод регуляции, и используется L2 регуляция.
    • 6. Регрессия Lasso

      Он похож на редукторную регрессию, и Lasso (Least Absolute Shrinkage and Selection Operator) также наказывает величину абсолютного значения коэффициента регрессии. Кроме того, он может уменьшить изменение и повысить точность модели линейного регрессии. Смотрите формулу ниже:

      img

      Lasso regression немного отличается от Ridge regression в том, что он использует наказание как абсолютную, а не квадратную функцию. Это приводит к тому, что наказание (или сумма абсолютных значений, равной сумме абсолютных значений ограничительных оценок) приводит к тому, что некоторые результаты оценки параметров равняются нулю. Чем больше используется наказание, тем более приближается оценка к нулю. Это приводит к тому, что мы выбираем переменную из n переменных.

      Ключевые моменты:

      • За исключением константы, такая вертикаль является аналогичной версии минимальной вертикали двойного.
      • Его коэффициент сжатия близок к нулю ((=0), что действительно помогает в выборе характеристик;
      • Это нормализационный метод, использующий L1 нормализацию.
      • Если набор прогнозируемых переменных является высокосоответствующим, Лассо выбирает одну из переменных и сокращает остальные до нуля.
    • 7.ElasticNet回归

      ElasticNet - это смесь технологий Lasso и Ridge regression. Она использует L1 для обучения и L2 в качестве приоритета для нормализации матриц. ElasticNet полезен, когда есть несколько связанных характеристик.

      img

      Фактическое преимущество между Lasso и Ridge заключается в том, что он позволяет ElasticNet унаследовать некоторую стабильность Ridge в циклическом состоянии.

      Ключевые моменты:

      • В случае с высокосоотносящимися переменными, это создает групповой эффект.
      • Количество выбранных переменных не ограничено.
      • Он может выдерживать двойной сжатие.
      • Помимо этих семи наиболее распространенных методов регрессии, вы можете посмотреть на другие модели, такие как Bayesian, Ecological и Robust regression.
    • Как правильно выбрать модель регрессии?

      Когда вы знаете только одну или две технологии, жизнь обычно проще. Я знаю одну учебную организацию, которая говорит своим студентам, что если результат непрерывный, то используйте линейную регрессию. Если бинарный, то используйте логическую регрессию!

      В многоклассных регрессионных моделях очень важно выбрать наиболее подходящую технологию, основанную на типах самоизменных и зависимых от них, измерениях данных и других основных характеристиках данных. Вот ключевые факторы, которые помогут вам выбрать правильную регрессионную модель:

      Исследование данных является неотъемлемой частью построения модели прогнозирования. Это должен быть приоритетный шаг при выборе подходящей модели, например, при выявлении отношений и влияния переменных.

      Для различных моделей мы можем проанализировать параметры различных показателей, такие как параметры статистического значения, R-square, Adjusted R-square, AIC, BIC и пункты ошибки, другой - Mallow's Cube Cp Guideline. Это в основном происходит путем сравнения модели со всеми возможными подмоделями (или их тщательного выбора) и проверки возможных отклонений в вашей модели.

      Кросс-проверка является наиболее эффективным методом оценки модели прогноза. Здесь разделите свой набор данных на две части (одна для тренировки и другая для проверки). Используйте простое среднее расстояние между значениями наблюдений и значениями прогноза для измерения точности ваших прогнозов.

      Если ваш набор данных состоит из нескольких смешанных переменных, то вы не должны использовать метод автоматического выбора модели, поскольку вы не должны иметь желание одновременно помещать все переменные в одну модель.

      Это также будет зависеть от ваших целей. Может возникнуть ситуация, когда менее мощная модель легче реализовать, чем модель с высокой статистической значимостью.

      Методы регрессионной нормализации (Lasso, Ridge и ElasticNet) хорошо работают при многократном солинарном взаимодействии между высокими измерениями и переменными на наборе данных.

Перенаправлено с CSDN


Больше