7 kỹ thuật quay trở lại mà bạn nên làm chủ

Tác giả:Giấc mơ nhỏ, Tạo: 2016-12-18 10:22:43, Cập nhật: 2016-12-18 11:08:56

7 kỹ thuật quay trở lại mà bạn nên làm chủ


Bài viết này giải thích phân tích hồi quy và những lợi thế của nó, tập trung tổng kết bảy kỹ thuật hồi quy phổ biến nhất nên nắm vững: hồi quy tuyến tính, hồi quy logic, hồi quy đa số, hồi quy tiến, hồi quy âm, hồi quy hàm, hồi quy ElasticNet và các yếu tố quan trọng của chúng, và cuối cùng giới thiệu các yếu tố quan trọng để chọn đúng mô hình hồi quy. ** ** Phân tích hồi quy nút của trình biên tập viên là một công cụ quan trọng cho việc mô hình hóa và phân tích dữ liệu. Bài viết này giải thích ý nghĩa và lợi thế của phân tích hồi quy, tập trung tổng kết bảy kỹ thuật hồi quy phổ biến nhất như hồi quy tuyến tính, hồi quy logic, hồi quy đa thuật, hồi quy từng bước, hồi quy chu kỳ, hồi quy yêu cầu, hồi quy ElasticNet và các yếu tố quan trọng của chúng, cuối cùng giới thiệu các yếu tố quan trọng để chọn đúng mô hình hồi quy.

  • Phân tích hồi quy là gì?

    Phân tích hồi quy là một kỹ thuật mô hình dự đoán, nghiên cứu mối quan hệ giữa các biến do (mục tiêu) và các biến tự do (nhà dự đoán). Kỹ thuật này thường được sử dụng trong phân tích dự đoán, mô hình chuỗi thời gian và mối quan hệ nhân quả giữa các biến được tìm thấy. Ví dụ, mối quan hệ giữa lái xe vô tâm của tài xế và số vụ tai nạn giao thông đường bộ, cách nghiên cứu tốt nhất là hồi quy.

    Phân tích hồi quy là một công cụ quan trọng để mô hình hóa và phân tích dữ liệu. Ở đây, chúng ta sử dụng đường cong / đường dây để phù hợp với các điểm dữ liệu này, theo cách này, khoảng cách từ đường cong hoặc đường đến các điểm dữ liệu là nhỏ nhất. Tôi sẽ giải thích chi tiết về điều này trong phần sau.

    img

  • Tại sao chúng ta lại sử dụng phân tích hồi quy?

    Như đã đề cập ở trên, phân tích hồi quy ước mối quan hệ giữa hai hoặc nhiều biến. Dưới đây, hãy đưa ra một ví dụ đơn giản để hiểu nó:

    Ví dụ, trong điều kiện kinh tế hiện tại, bạn muốn ước tính doanh số bán hàng của một công ty. Bây giờ, bạn có dữ liệu mới nhất của công ty cho thấy doanh số bán hàng tăng khoảng 2,5 lần tăng trưởng kinh tế.

    Có rất nhiều lợi ích của việc sử dụng phân tích hồi quy.

    Nó cho thấy mối quan hệ đáng kể giữa biến tự và biến do;

    Nó cho thấy mức độ ảnh hưởng của nhiều tự biến đối với một biến.

    Phân tích hồi quy cũng cho phép chúng ta so sánh ảnh hưởng giữa các biến đo được ở các quy mô khác nhau, chẳng hạn như mối liên hệ giữa sự thay đổi giá và số lượng hoạt động quảng cáo. Điều này giúp các nhà nghiên cứu thị trường, nhà phân tích dữ liệu và các nhà khoa học dữ liệu loại trừ và ước tính một tập hợp các biến số tốt nhất để xây dựng mô hình dự báo.

  • Chúng ta có bao nhiêu công nghệ quay trở lại?

    Có rất nhiều kỹ thuật hồi quy được sử dụng để dự đoán. Các kỹ thuật này có ba phương pháp đo lường chính (số người của biến, loại biến và hình dạng của đường hồi quy). Chúng tôi sẽ thảo luận chi tiết về chúng trong phần dưới đây.

    img

    Đối với những người sáng tạo, bạn thậm chí có thể tạo ra một mô hình hồi quy chưa được sử dụng nếu bạn cảm thấy cần thiết sử dụng một trong những sự kết hợp của các tham số trên. Nhưng trước khi bạn bắt đầu, hãy tìm hiểu các phương pháp hồi quy phổ biến nhất sau:

    • 1. Linear Regression

      Nó là một trong những kỹ thuật mô hình hóa quen thuộc nhất. Phân hồi tuyến tính thường là một trong những kỹ thuật được ưa chuộng khi học mô hình dự đoán. Trong kỹ thuật này, vì các biến là liên tục, các biến tự có thể liên tục hoặc tách biệt, và tính chất của đường hồi là tuyến tính.

      Phân hồi tuyến tính sử dụng một đường thẳng phù hợp nhất (tức là đường hồi quy) để thiết lập một mối quan hệ giữa biến số (y) và một hoặc nhiều biến số (x).

      Nó được thể hiện bằng một phương trình, tức là Y = a + b * X + e, trong đó a là độ cắt, b là độ nghiêng của đường thẳng, e là hàm sai. Phương trình này có thể dự đoán giá trị của các biến mục tiêu dựa trên các biến dự đoán (s) được đưa ra.

      img

      Sự khác biệt giữa khâu đơn tuyến tính và khâu đa tuyến tính là khâu đa tuyến tính có > 1 tự biến, trong khi khâu đơn tuyến tính thường chỉ có một tự biến.

      Làm thế nào để có được đường phù hợp nhất (giá trị của a và b)?

      Vấn đề này có thể được thực hiện một cách dễ dàng bằng cách sử dụng các phép nhân hai tối thiểu. Các phép nhân hai tối thiểu cũng là phương pháp phổ biến nhất để khớp các đường quay trở lại. Đối với dữ liệu quan sát, nó tính toán các đường khớp tối ưu bằng cách giảm thiểu tổng các hình vuông của sự lệch thẳng đứng của mỗi điểm dữ liệu đến đường.

      img

      Chúng ta có thể sử dụng các chỉ số R-square để đánh giá hiệu suất mô hình. Để biết chi tiết về các chỉ số này, bạn có thể đọc: Các chỉ số hiệu suất mô hình Phần 1, Phần 2.

      Điểm chính:

      • Các biến tự và biến do phải có mối quan hệ tuyến tính.
      • Phân hồi đa dạng có nhiều đồng tuyến, tự liên quan và khác biệt khác nhau.
      • Sự hồi quy tuyến tính rất nhạy cảm với các giá trị bất thường. Nó có thể ảnh hưởng nghiêm trọng đến đường hồi quy và cuối cùng ảnh hưởng đến giá trị dự báo.
      • Sự đa tuyến tính làm tăng sự chênh lệch trong ước tính hệ số, làm cho ước tính rất nhạy cảm với những thay đổi nhỏ trong mô hình. Kết quả là ước tính hệ số không ổn định.
      • Trong trường hợp có nhiều tự biến, chúng ta có thể sử dụng cách lựa chọn phía trước, cách loại bỏ phía sau và cách lọc dần để chọn các tự biến quan trọng nhất.
    • 2. Logistic Regression Logic Regression

      Logical regression được sử dụng để tính tỷ lệ xác suất của sự kiện Y = Success Y và sự kiện Y = Failure Y. Khi kiểu của các biến thuộc về các biến nhị phân ((1/0, true/false, yes/no) thì chúng ta nên sử dụng logical regression. Ở đây, giá trị của Y từ 0 đến 1, nó có thể được thể hiện bằng phương trình sau đây.

      odds= p/ (1-p) = probability of event occurrence / probability of not event occurrence
      ln(odds) = ln(p/(1-p))
      logit(p) = ln(p/(1-p)) = b0+b1X1+b2X2+b3X3....+bkXk
      

      Trong các công thức trên, biểu thức p có một đặc điểm xác suất. Bạn nên hỏi: Tại sao chúng ta sử dụng log trong công thức?

      Vì ở đây chúng ta sử dụng phân bố hai (vì biến), chúng ta cần chọn một hàm kết nối tốt nhất cho phân bố này. Đó là hàm Logit. Trong phương trình trên, các tham số được chọn bằng cách xem xét các giá trị ước tính rất giống với mẫu, chứ không phải là giảm thiểu hình vuông và sai (như sử dụng trong sự hồi quy thông thường).

      img

      Điểm chính:

      • Nó được sử dụng rộng rãi trong các vấn đề phân loại.
      • Logical regression không yêu cầu tự biến và vì biến là mối quan hệ tuyến tính. Nó có thể xử lý các loại mối quan hệ khác nhau vì nó sử dụng một chuyển đổi log phi tuyến tính đối với chỉ số rủi ro tương đối OR của dự đoán.
      • Để tránh quá phù hợp và không phù hợp, chúng ta nên bao gồm tất cả các biến số quan trọng. Một cách tốt để đảm bảo điều này là sử dụng phương pháp lọc từng bước để ước tính sự hồi quy logic.
      • Nó đòi hỏi một lượng mẫu lớn, vì với số lượng mẫu nhỏ, các kết quả ước tính rất giống sẽ tồi tệ hơn hai lần tối thiểu thông thường.
      • Các biến tự không nên liên quan đến nhau, tức là không có nhiều côn tuyến. Tuy nhiên, trong phân tích và mô hình hóa, chúng ta có thể chọn bao gồm các ảnh hưởng của sự tương tác giữa các biến phân loại.
      • Nếu giá trị của một biến là một biến được sắp xếp, nó được gọi là sự hồi quy logic sắp xếp.
      • Nếu một biến là đa loại, nó được gọi là hồi quy logic đa dạng.
    • 3. Polynomial Regression

      Đối với một phương trình hồi quy, nếu chỉ số của tự biến lớn hơn 1, thì nó là một phương trình hồi quy đa số.

      y=a+b*x^2
      

      Trong kỹ thuật hồi quy này, đường phù hợp tối ưu không phải là đường thẳng; mà là đường cong được sử dụng để phù hợp với các điểm dữ liệu.

      img

      Điểm nhấn:

      • Mặc dù sẽ có một sự thúc đẩy để phù hợp với một thuật toán đa thức cao và nhận được một lỗi thấp hơn, nhưng điều này có thể dẫn đến quá phù hợp. Bạn cần phải thường xuyên vẽ biểu đồ mối quan hệ để xem các tình huống phù hợp, và tập trung vào việc đảm bảo phù hợp hợp, không quá phù hợp và không thiếu phù hợp. Dưới đây là một ví dụ để giúp hiểu:

      img

      • Tìm các điểm đường cong rõ ràng ở cả hai đầu để xem hình dạng và xu hướng có ý nghĩa hay không. Một số thuật toán cao hơn cuối cùng có thể tạo ra kết quả suy luận kỳ lạ.
    • 4. Stepwise Regression

      Khi xử lý nhiều tự biến, chúng ta có thể sử dụng hình thức quay trở lại này. Trong kỹ thuật này, sự lựa chọn tự biến được thực hiện trong một quá trình tự động, bao gồm cả các thao tác không phải của con người.

      Thành tựu này là để xác định các biến quan trọng bằng cách nhìn vào các giá trị thống kê, chẳng hạn như R-square, t-stats và chỉ số AIC.

      • Tiêu chuẩn tiến regression làm hai điều. Đó là thêm và loại bỏ dự đoán cần thiết cho mỗi bước.
      • Phương pháp lựa chọn về phía trước bắt đầu với dự đoán nổi bật nhất trong mô hình và sau đó thêm các biến cho mỗi bước.
      • Phân loại ngược bắt đầu cùng một lúc với tất cả các dự đoán của mô hình, sau đó loại bỏ các biến số ít có ý nghĩa nhất ở mỗi bước.
      • Mục đích của kỹ thuật mô hình này là tối đa hóa khả năng dự đoán bằng cách sử dụng ít biến số dự đoán nhất. Đây cũng là một trong những phương pháp xử lý các tập dữ liệu chiều cao.
    • 5. Ridge Regression Returns

      Phân tích hồi quy là một kỹ thuật sử dụng cho các dữ liệu có nhiều sự đồng tuyến tính (đối với độ cao của các biến). Trong trường hợp đa sự đồng tuyến tính, mặc dù các phép nhân tối thiểu hai lần (OLS) là công bằng đối với mỗi biến, nhưng sự khác biệt của chúng rất lớn, khiến các giá trị quan sát bị sai lệch và xa khỏi giá trị thực. Phân tích hồi quy giảm sai lệch tiêu chuẩn bằng cách tăng một độ sai lệch trong ước tính cho phép quay trở lại.

      Ở trên, chúng ta đã thấy phương trình hồi quy tuyến tính.

      y=a+ b*x
      

      Phương trình này cũng có một điều kiện sai. Phương trình hoàn chỉnh là:

      y=a+b*x+e (error term),  [error term is the value needed to correct for a prediction error between the observed and predicted value]
      => y=a+y= a+ b1x1+ b2x2+....+e, for multiple independent variables.
      

      Trong một phương trình tuyến tính, lỗi dự đoán có thể được chia thành hai phần tử nhỏ. Một là sai lệch và một là chênh lệch. Sai lệch dự đoán có thể được gây ra bởi hai phần tử này hoặc bởi bất kỳ phần tử nào trong số hai.

      Chuyển hướng giải quyết các vấn đề liên tuyến đa phương bằng cách rút gọn tham số λ ((lambda); xem các công thức dưới đây

      img

      Trong công thức này, có hai thành phần. Thứ nhất là số ít nhất hai lần, và thứ hai là số λ của β2 ((β-tháng vuông), trong đó β là hệ số liên quan. Để thu hẹp tham số, hãy thêm nó vào số ít nhất hai lần để có được một phương lệch rất thấp.

      Điểm chính:

      • Ngoại trừ các hàm số thường, giả định này tương tự như giả thuyết về khâu khâu tối thiểu hai lần.
      • Nó thu hẹp các giá trị của các hệ số liên quan, nhưng không đạt đến 0, cho thấy nó không có tính năng chọn đặc trưng
      • Đây là một phương pháp chuẩn hóa, và sử dụng là L2 chuẩn hóa.
    • 6. Lasso Regression

      Nó tương tự như hồi quy, Lasso (Least Absolute Shrinkage and Selection Operator) cũng trừng phạt kích thước giá trị tuyệt đối của hệ số hồi quy. Ngoài ra, nó có thể giảm độ thay đổi và tăng độ chính xác của mô hình hồi quy tuyến tính. Xem công thức dưới đây:

      img

      Lasso regression khác với Ridge regression một chút, nó sử dụng hàm phạt là giá trị tuyệt đối, chứ không phải là số vuông. Điều này dẫn đến giá trị phạt ((hoặc tương đương với tổng số giá trị tuyệt đối của ước tính ràng buộc) làm cho một số kết quả ước tính của các tham số bằng không. Việc sử dụng giá trị phạt lớn hơn, ước tính tiếp theo sẽ làm cho giá trị thu hẹp gần với không. Điều này sẽ dẫn đến việc chúng ta phải chọn một biến từ n biến số nhất định.

      Điểm chính:

      • Ngoại trừ các hàm số thường, giả định này tương tự như giả thuyết về khâu khâu tối thiểu hai lần.
      • Nó có hệ số co rút gần 0 (tương đương 0), điều này thực sự giúp lựa chọn đặc điểm;
      • Đây là một phương pháp chuẩn hóa, sử dụng L1 chuẩn hóa;
      • Nếu một nhóm các biến được dự đoán là có liên quan cao, Lasso sẽ chọn một trong số các biến và rút lại các biến khác thành 0.
    • 7.ElasticNet回归

      ElasticNet là một sự pha trộn giữa Lasso và Ridge regression. Nó sử dụng L1 để huấn luyện và L2 là một ma trận định dạng ưu tiên. ElasticNet rất hữu ích khi có nhiều tính năng liên quan. Lasso sẽ chọn một trong số họ một cách ngẫu nhiên, còn ElasticNet sẽ chọn hai.

      img

      Lợi thế thực tế giữa Lasso và Ridge là nó cho phép ElasticNet thừa hưởng một số tính ổn định của Ridge trong trạng thái xoay.

      Điểm chính:

      • Trong trường hợp các biến có liên quan cao, nó tạo ra hiệu ứng nhóm;
      • Không giới hạn số lượng các biến mà bạn có thể chọn.
      • Nó có thể chịu được sự co lại gấp đôi.
      • Ngoài 7 kỹ thuật quay trở lại phổ biến nhất, bạn có thể xem các mô hình khác như Bayesian, Ecological và Robust Regression.
    • Làm thế nào để chọn đúng mô hình hồi quy?

      Cuộc sống thường rất đơn giản khi bạn chỉ biết một hoặc hai công nghệ. Tôi biết một tổ chức đào tạo đã nói với sinh viên của họ rằng nếu kết quả là liên tục, hãy sử dụng hồi quy tuyến tính. Nếu là nhị phân, hãy sử dụng hồi quy logic! Tuy nhiên, trong xử lý của chúng tôi, càng có nhiều lựa chọn, càng khó chọn đúng một.

      Trong mô hình hồi quy đa lớp, việc chọn kỹ thuật phù hợp nhất dựa trên tự biến và loại biến, kích thước dữ liệu và các đặc điểm cơ bản khác của dữ liệu là rất quan trọng. Dưới đây là những yếu tố quan trọng để bạn chọn đúng mô hình hồi quy:

      Khám phá dữ liệu là một phần không thể thiếu trong việc xây dựng mô hình dự đoán. Nó nên là bước ưu tiên khi chọn mô hình phù hợp, chẳng hạn như khi xác định mối quan hệ và ảnh hưởng của các biến.

      Có những ưu điểm khác nhau cho các mô hình khác nhau, chúng ta có thể phân tích các tham số chỉ số khác nhau, chẳng hạn như các tham số có ý nghĩa thống kê, R-square, Adjusted R-square, AIC, BIC và các mục sai, một khác là Mallows + Cp. Điều này chủ yếu là bằng cách so sánh mô hình với tất cả các mô hình con có thể (hoặc chọn cẩn thận chúng), kiểm tra sự lệch có thể xảy ra trong mô hình của bạn.

      Xác minh chéo là phương pháp tốt nhất để đánh giá mô hình dự đoán. Ở đây, chia bộ dữ liệu của bạn thành hai phần (một tập luyện và một xác minh). Sử dụng một chênh lệch trung bình đơn giản giữa giá trị quan sát và giá trị dự đoán để đo độ chính xác dự đoán của bạn.

      Nếu bộ dữ liệu của bạn là nhiều biến hỗn hợp, thì bạn không nên chọn phương pháp chọn mô hình tự động, vì bạn không nên muốn đặt tất cả các biến trong cùng một mô hình cùng một lúc.

      Nó cũng sẽ phụ thuộc vào mục đích của bạn. Có thể có những trường hợp mà một mô hình ít mạnh hơn dễ thực hiện hơn so với một mô hình có ý nghĩa thống kê cao.

      Phương pháp quy định hồi quy (Lasso, Ridge và ElasticNet) hoạt động tốt trong trường hợp có nhiều đồng tuyến giữa các biến số ở chiều cao và tập dữ liệu.

Được chuyển từ CSDN


Thêm nữa