7가지 회귀 기술을 익혀야 합니다.

저자:작은 꿈, 2016-12-18 10:22:43, 업데이트: 2016-12-18 11:08:56

7가지 회귀 기술을 익혀야 합니다.


이 문서에서는 회귀 분석과 그 장점을 설명하고, 선형 회귀, 논리 회귀, 다항성 회귀, 단계 회귀, 회귀, 수요 회귀, ElasticNet 회귀 등 가장 많이 사용되는 7가지 회귀 기술과 그 핵심 요소들을 요약하고, 마지막으로 올바른 회귀 모델을 선택하는 핵심 요소들을 소개한다. ** ** 컴파일러 버튼 회귀 분석은 데이터 모델링과 분석의 중요한 도구이다. 이 문서에서는 회귀 분석의 의미와 장점을 설명하고, 선형 회귀, 논리 회귀, 다항 회귀, 단계 회귀, 회귀, 수요 회귀, ElasticNet 회귀와 같은 가장 일반적으로 사용되는 회귀 기술과 올바른 회귀 모델을 선택하는 중요한 요소를 요약하는 데 초점을 맞추고 있습니다.

  • 회귀 분석이란 무엇인가요?

    회귀분석 (regression analysis) 은 예측 모델링 기술로, 기因변수 (목적) 와 자기변수 (예측자) 사이의 관계를 연구한다. 이 기술은 종종 예측 분석, 시간계열 모델, 그리고 발견 변수들 사이의 인과 관계를 위해 사용된다. 예를 들어, 운전자의 부주의한 운전과 도로 교통 사고의 수 사이의 관계는 회귀로 가장 좋은 연구 방법이다.

    회귀 분석은 데이터를 모델링하고 분석하는 데 중요한 도구이다. 여기서 우리는 곡선/선들을 사용하여 이 데이터 포인트들을 맞추고, 이 방식으로 곡선이나 선에서 데이터 포인트까지의 거리의 차이는 최소화된다. 나는 다음 부분에서 이것을 자세히 설명할 것이다.

    img

  • 왜 우리는 회귀 분석을 사용합니까?

    앞서 언급했듯이, 회귀 분석은 두 개 이상의 변수 사이의 관계를 추정합니다. 아래에서, 그것을 이해하기 위해 간단한 예를 들어 보겠습니다:

    예를 들어, 현재 경제 조건에서 회사의 매출 성장률을 추산해야 합니다. 이제, 회사의 최신 데이터가 있습니다. 매출 성장률은 경제 성장률의 2.5배 정도입니다.

    회귀 분석을 사용하는 데는 많은 이점이 있습니다.

    그것은 자기 변수와 계수 변수 사이의 중요한 관계를 보여줍니다.

    이는 여러 자기변수들이 하나의 변수에 미치는 영향의 강도를 나타낸다.

    회귀 분석은 또한 가격 변화와 프로모션 활동의 수 사이의 연관성과 같은 다양한 규모의 변수를 측정하는 변수들 사이의 상호작용을 비교할 수 있게 한다. 이것은 시장 연구원, 데이터 분석가, 그리고 데이터 과학자들이 예측 모델을 구축하기 위해 최적의 변수들을 배제하고 추정하는 데 도움이 된다.

  • 우리는 얼마나 많은 재귀 기술을 가지고 있을까요?

    다양한 회귀 기술이 예측에 사용된다. 이 기술은 크게 세 가지 측정 (자신 변수 개수, 변수 유형 및 회귀선의 모양) 을 가지고 있다. 우리는 다음 섹션에서 그것들을 자세히 논의할 것이다.

    img

    창의적인 사람들을 위해, 만약 위의 변수들의 조합을 사용하는 것이 필요하다고 생각한다면, 사용되지 않은 회귀 모델을 만들 수도 있다. 하지만 시작하기 전에, 가장 많이 사용되는 회귀 방법을 알아보자:

    • 1. 선형 회귀 선형 회귀

      그것은 가장 잘 알려진 모델링 기술 중 하나입니다. 선형 회귀는 일반적으로 예측 모델을 배우는 데 가장 선호되는 기술 중 하나입니다. 이 기술에서는 변수가 연속적이기 때문에 자체 변수가 연속적이거나 분분적이 될 수 있으며 회귀 라인의 특성은 선형적입니다.

      선형 회귀는 최적의 적합성 직선 (즉 회귀선) 을 사용하여 요인 변수 (Y) 와 하나 이상의 자기 변수 (X) 사이에 관계를 설정한다.

      이 방정식은 Y=a+b*X+e라는 방정식으로 나타납니다. 여기서 a는 절단, b는 직선의 기울기, e는 오류항이다. 이 방정식은 주어진 예측 변수 (s) 에 따라 목표 변수의 값을 예측할 수 있습니다.

      img

      단선 회귀와 다선 회귀의 차이점은 다선 회귀가 (1) 자변을 가지고 있는 반면 단선 회귀는 보통 1 자변을 가지고 있다는 것이다. 이제 문제는 우리가 최적의 합선선을 어떻게 얻을 수 있는가?

      가장 적합한 선 (a와 b의 값) 을 어떻게 얻을 수 있습니까?

      이 문제는 최소 제곱으로 쉽게 풀 수 있다. 최소 제곱은 회귀선을 맞추는 가장 일반적인 방법이기도 하다. 관측 데이터의 경우, 각 데이터 포인트와 선의 수직 편차의 제곱을 최소화하여 최적의 편차를 계산한다. 덧셈에 편차가 먼저 제곱되기 때문에 양수와 음수가 적립되지 않는다.

      img

      우리는 R-square 지표를 사용하여 모델 성능을 평가할 수 있다. 이 지표에 대한 자세한 정보는 모델 성능 지표 Part 1, Part 2를 읽을 수 있다.

      이 글은

      • 자변과 계변 사이에 선형적인 관계가 있어야 합니다.
      • 다중 회귀에는 다중 공선성, 자기관계성 및 이질적 차이가 있다.
      • 선형 회귀는 이상 값에 매우 민감하다. 이는 회귀 선에 심각한 영향을 미치고 결국 예측 값에 영향을 미칩니다.
      • 다중 공선성은 계수 추정값의 차이를 증가시켜 모델의 작은 변화에도 매우 민감하게 추정한다. 결과적으로 계수 추정값은 불안정하다.
      • 여러 개의 자기변수에서 가장 중요한 자기변수를 선택하기 위해 전향 선택, 후퇴 제거, 단계적 필터링을 사용할 수 있다.
    • 2. 논리적 회귀 논리 회귀

      논리 회귀는?? 사건=성공?? 및?? 사건=실패?? 의 확률을 계산하는 데 사용된다. 변수의 유형이 이진 ((1/0, true/false, yes/no) 변수에 속할 때, 우리는 논리 회귀를 사용해야 한다. 여기서, Y의 값은 0에서 1까지, 그것은 다음과 같은 방정식으로 나타낼 수 있다.

      odds= p/ (1-p) = probability of event occurrence / probability of not event occurrence
      ln(odds) = ln(p/(1-p))
      logit(p) = ln(p/(1-p)) = b0+b1X1+b2X2+b3X3....+bkXk
      

      위의 식에서 p 표현은 어떤 특성을 갖는 확률을 가지고 있다. 당신은 이런 질문을 해야 한다: 왜 우리는 공식을 위해 로그램을 사용합니까?

      여기서 우리가 사용하는 것은 이분법 분포 (因변수)이기 때문에, 우리는 이 분포에 가장 적합한 연결 함수를 선택해야 한다. 그것은 로그이트 함수이다. 위의 방정식에서, 관측 표본의 매우 유사한 추정값을 통해 사각형과 오류를 최소화하지 않고 변수를 선택해야 한다. (일반 회귀에서 사용되는 것처럼).

      img

      이 글은

      • 그것은 분류 문제에 널리 사용됩니다.
      • 논리적 회귀는 자기변수와 변수가 선형 관계이기 때문에 요구하지 않는다. 그것은 예측된 상대적 위험 지수 OR에 비선형 로그 변환을 사용하기 때문에 모든 유형의 관계를 처리할 수 있다.
      • 과격과 과격을 피하기 위해, 우리는 모든 중요한 변수를 포함해야 한다. 이것을 보장하기 위한 좋은 방법은 논리 회귀를 추정하기 위해 단계적 필터링 방법을 사용하는 것이다.
      • 그것은 많은 표본을 필요로 하며, 작은 표본의 경우, 매우 유사하게 추정된 효과는 보통의 최소 2배보다 나빠진다.
      • 자 변수는 서로 연관되어 있지 않아야 하며, 즉 다중 공선성을 가지지 않는다. 그러나 분석과 모델링에서 우리는 분류 변수 상호작용의 영향을 포함하도록 선택할 수 있다.
      • 만약 변수의 값이 정렬된 변수라면, 그것을 정렬 논리 회귀라고 한다.
      • 만약 변수가 다목적이라면 다목적 논리 회귀라고 한다.
    • 3. 폴리노미얼 회귀 다항기 회귀

      회귀 방정식에 대해, 자기변수의 지수가 1보다 크면, 그것은 다항적 회귀 방정식이다.

      y=a+b*x^2
      

      이러한 회귀 기술에서는 최적의 핏 라인은 직선이 아니라 데이터 포인트를 맞추기 위해 사용되는 곡선이다.

      img

      이 글은

      • 높은 다항식을 맞추고 낮은 오류를 얻을 수 있는 유도가 있을 수 있지만, 이것은 과적응을 초래할 수 있다. 당신은 종종 적합 상황을 보려면 관계 도표를 그리어야 하며, 과적응과 과적응이 없는 합리적 적합성을 보장하는 데 집중해야 한다. 아래 그림은 이해하는데 도움이 될 수 있다.

      img

      • 양쪽 끝을 향해 명백하게 곡선 점을 찾아서 그 모양과 경향이 의미가 있는지 보아라. 더 높은 다항식들은 결국 이상한 추론 결과를 가져올 수 있다.
    • 4. 단계적 회귀

      다수의 자기변수들을 처리할 때 우리는 이러한 형태의 회귀를 사용할 수 있다. 이 기술에서는 자기변수 선택은 자동적인 과정에 의해 이루어지며, 여기에는 비인도 조작이 포함된다.

      이 업적은 R-square, t-stats 및 AIC 지표와 같은 통계적 값을 관찰하여 중요한 변수를 식별하는 것이다. 단계적 회귀는 지정된 기준에 기반한 동변을 동시에 추가/제어하여 모델을 적합하게 만드는 것이다. 아래에는 가장 일반적으로 사용되는 단계적 회귀 방법의 일부가 나열되어 있다:

      • 표준 단계 회귀법은 두 가지 일을 합니다. 즉, 각 단계에 필요한 예측을 추가하고 삭제합니다.
      • 앞으로 선택 방법은 모델에서 가장 눈에 띄는 예측에서 시작하여 각 단계에 변수를 추가합니다.
      • 후퇴 추출법은 모델과 모든 예측을 동시에 시작하고, 각 단계마다 가장 유의미한 변수를 제거한다.
      • 이 모델링 기술은 예측 능력을 극대화하기 위해 최소한의 예측 변수를 사용하는 것을 목표로 한다. 이것은 또한 고차원 데이터 세트를 처리하는 방법 중 하나이다.
    • 5. 리드지 회귀

      회귀 분석 ( regression analysis) 은 다중 공감선적 (自变高度相关) 데이터의 존재에 대한 기술이다. 다중 공감선적의 경우, 최소 두 배수 (OLS) 가 각 변수에 공평하지만, 그 차이가 너무 커서 관측 값이 편차되고 실제 값에서 멀어진다. 회귀는 regression 추정에 하나의 편차를 증가시킴으로써 표준 오류를 감소시킨다.

      위에선형 회귀 방정식을 보았습니다. 기억하시나요?

      y=a+ b*x
      

      이 방정식은 또한 오류항을 가지고 있습니다. 완전한 방정식은:

      y=a+b*x+e (error term),  [error term is the value needed to correct for a prediction error between the observed and predicted value]
      => y=a+y= a+ b1x1+ b2x2+....+e, for multiple independent variables.
      

      선형 방정식에서 예측 오류는 2개의 하위 분모로 분해될 수 있다. 하나는 편차이고 다른 하나는 분차이다. 예측 오류는 이 두 가지 분모 또는 이 둘 중 어느 하나에 의해 발생할 수 있다. 여기서 우리는 분차에 의해 발생하는 관련 오류에 대해 논의할 것이다.

      회귀는 수중 공선성 문제를 수축 변수 λ (lambda) 로 해결한다. 아래 방정식을 참조하라.

      img

      이 공식에는 두 가지 구성 요소가 있다. 첫째는 최소 이분수, 다른 하나는 β2 (β-제곱) 의 곱하기 λ이며, 여기서 β는 관련 계수이다. 축소 변수를 위해 최소 이분수에 추가하여 매우 낮은 분리를 얻는다.

      이 글은

      • 이 회귀의 가설은 변수를 제외하고 최소 2배 회귀와 유사하다.
      • 그것은 관련 계수의 값을 축소하지만 0에 도달하지 않습니다. 이것은 특유의 선택 기능이 없다는 것을 보여줍니다.
      • 이것은 정규화 방법이며 L2 정규화를 사용합니다.
    • 6. 라소 회귀 코스 회귀

      이것은 회귀와 유사하며, 라소 (Least Absolute Shrinkage and Selection Operator) 는 또한 회귀 계수의 절대값 크기를 처벌한다. 또한, 그것은 변화의 정도를 줄이고 선형 회귀 모델의 정밀도를 향상시킬 수 있다. 아래 방정식을 참조:

      img

      라소 회귀는 리지 회귀와 약간 다릅니다. 그것은 벌금 함수를 사용해서 절대값이 아니라 제곱을 사용합니다. 이것은 벌금 (또는 제약 추정치의 절대값의 합과 같다는) 값으로 인해 몇 가지 매개 변수 추정 결과가 0에 해당됩니다. 벌금 값을 사용하면 벌금 값이 커질수록 추가 추정값이 0에 가까워집니다. 이것은 우리가 주어진 n 변수 중에서 변수를 선택하도록 만듭니다.

      이 글은

      • 이 회귀의 가설은 변수를 제외하고 최소 2배 회귀와 유사하다.
      • 그 수축 계수는 0에 가깝게 ((=0) 이고, 이는 특징 선택에 도움이 됩니다.
      • 이것은 L1 정형화를 사용하는 정형화 방법입니다.
      • 만약 예측된 변수들의 집합이 매우 연관성이 있다면, 라소 (Lasso) 는 그 중 하나의 변수를 선택하고 다른 것을 0으로 축소한다.
    • 7.ElasticNet回归

      ElasticNet은 라소와 리지 회귀 기술의 혼합이다. 그것은 L1을 훈련하기 위해 사용하고 L2를 정규 매트릭스로 우선적으로 사용한다. 여러 개의 관련 특성이 있을 때 ElasticNet은 유용하다. 라소는 그 중 하나를 무작위로 선택하고, ElasticNet은 둘을 선택한다.

      img

      라소와 리지의 실질적인 장점은 라스틱넷이 리지의 어떤 안정성을 루킹 상태에서 물려받을 수 있게 해준다는 것이다.

      이 글은

      • 높은 관련 변수에서 집단 효과를 발생시킵니다.
      • 선택 가능한 변수의 수는 제한되지 않습니다.
      • 이 두 가지 요소를 모두 고려하면,
      • 이 7가지 가장 많이 사용되는 회귀 기술 외에도 다른 모델들, 예를 들어 Bayesian, Ecological, 그리고 Robust 회귀를 살펴볼 수 있습니다.
    • 어떻게 회귀 모델을 올바르게 선택할 수 있습니까?

      한 두 가지 기술만 알고 있을 때 삶은 종종 간단하다. 내가 아는 한 교육 기관은 학생들에게 결과물이 연속이라면 선형 회귀를 사용하라고 말했다. 이진형이라면 논리 회귀를 사용했다. 그러나 우리의 처리에서 선택할 수 있는 것이 많을수록 올바른 것을 선택하는 것이 더 어려워졌다.

      다차원 회귀 모형에서는 자기변수와 수동변수의 종류, 데이터의 차원, 그리고 데이터의 다른 기본 특성들에 기초하여 가장 적합한 기술을 선택하는 것이 매우 중요합니다. 다음은 올바른 회귀 모형을 선택하는 데 중요한 요소입니다:

      데이터 탐구는 예측 모델을 구축하는 데 필수적인 부분이다. 적절한 모델을 선택할 때, 예를 들어 변수의 관계와 영향을 식별할 때 우선 순위가 되어야 한다.

      서로 다른 모델의 장점들을 비교할 때, 우리는 통계적 의미의 파라미터, R-스퀘어, 조정된 R-스퀘어, AIC, BIC, 그리고 오류 항목과 같은 다른 지표 매개 변수를 분석할 수 있다. 다른 하나는 말루스?? Cp 기준이다. 이것은 주로 모델을 모든 가능한 서모델과 비교함으로써 (또는 신중하게 선택하여) 당신의 모델에서 발생할 수 있는 오차를 검사하는 것이다.

      크로스 검증은 예측 모델을 평가하는 가장 좋은 방법이다. 여기서는 당신의 데이터 세트를 두 부분으로 나누고 (한 부분은 훈련하고 다른 하나는 검증한다). 관찰값과 예측값 사이의 간단한 평균 차이를 사용하여 당신의 예측의 정확성을 측정한다.

      만약 당신의 데이터 세트가 여러 개의 혼합 변수라면, 당신은 모든 변수들을 동시에 같은 모델에 넣고 싶지 않기 때문에 자동 모델 선택 방법을 선택해서는 안 된다.

      그것은 또한 당신의 목적에 따라 달라질 것입니다. 더 약한 모델이 높은 통계적 의미의 모델보다 더 쉽게 구현될 수 있는 상황이 발생할 수 있습니다.

      회귀 정형화 방법 (Lasso, Ridge, ElasticNet) 은 고차원 및 데이터셋 변수들 사이의 다중 공선적 상태에서 잘 작동한다.

CSDN에서 가져온


더 많은