**Artikel ini menerangkan analisis regresi dan kelebihan-kelebihannya, dengan memfokuskan pada tujuh teknik regresi yang paling biasa digunakan dan elemen-elemen kunci yang perlu dikuasai seperti regresi linear, regresi logik, regresi multipolar, regresi bertahap, regresi gelung, regresi runcing, regresi ElasticNet, dan akhirnya faktor-faktor kunci untuk memilih model regresi yang betul. ** ** Analisis regresi butang pengatur adalah alat penting untuk pemodelan dan analisis data. Artikel ini menerangkan makna dan kelebihan analisis regresi, dengan fokus meringkaskan tujuh teknik regresi yang paling biasa digunakan dan elemen-elemen kunci untuk memilih model regresi yang betul, seperti regresi linear, regresi logik, regresi multipolar, regresi bertahap, regresi gelung, regresi runcing, dan regresi ElasticNet.**
Analisis regresi adalah teknik pemodelan ramalan yang mengkaji hubungan antara pembolehubah sebab (target) dan pembolehubah diri (proklamator). Teknik ini biasanya digunakan dalam analisis ramalan, model urutan masa, dan hubungan sebab-akibat antara pembolehubah yang ditemui. Sebagai contoh, hubungan antara pemandu yang tidak bertanggungjawab dan jumlah kemalangan jalan raya, kaedah terbaik untuk mengkaji adalah regresi.
Analisis regresi adalah alat penting untuk memodelkan dan menganalisis data. Di sini, kita menggunakan kurva/garis untuk menyesuaikan titik data ini, dengan cara ini, perbezaan jarak dari kurva atau garis ke titik data adalah minimum. Saya akan menerangkannya dengan terperinci dalam bahagian seterusnya.

Analisis regresi menganggarkan hubungan antara dua atau lebih pembolehubah, seperti yang dinyatakan di atas. Di bawah ini, mari kita ambil contoh mudah untuk memahaminya:
Sebagai contoh, dalam keadaan ekonomi semasa, anda perlu menganggarkan pertumbuhan jualan sebuah syarikat. Sekarang, anda mempunyai data terkini syarikat yang menunjukkan bahawa pertumbuhan jualan adalah kira-kira 2.5 kali ganda pertumbuhan ekonomi. Kemudian menggunakan analisis regresi, kita boleh menggunakan maklumat semasa dan masa lalu untuk meramalkan jualan masa depan syarikat.
Terdapat banyak faedah menggunakan analisis regresi:
Ia menunjukkan hubungan yang ketara antara pembolehubah dan pembolehubah;
Ia menunjukkan intensiti kesan pelbagai pembolehubah terhadap pembolehubah penyebab.
Analisis regresi juga membolehkan kita membandingkan kesan antara pembolehubah yang mengukur skala yang berbeza, seperti hubungan antara perubahan harga dan jumlah aktiviti promosi. Ini membantu penyelidik pasaran, penganalisis data, dan saintis data untuk mengecualikan dan menganggarkan satu set pembolehubah terbaik untuk membina model ramalan.
Terdapat pelbagai teknik regresi yang digunakan untuk membuat ramalan. Teknik-teknik ini mempunyai tiga ukuran utama: bilangan pelarut, jenis pelarut, dan bentuk garis regresi. Kami akan membincangkannya secara terperinci dalam bahagian berikut.

Bagi mereka yang kreatif, anda boleh membuat model regresi yang tidak pernah digunakan jika anda merasa perlu menggunakan kombinasi parameter di atas. Tetapi sebelum anda memulakan, ketahui kaedah regresi yang paling biasa:
Ia adalah salah satu teknik pemodelan yang paling terkenal. Regresen linear biasanya merupakan salah satu teknik yang dipilih oleh orang ramai ketika mempelajari model ramalan. Dalam teknik ini, kerana pembolehubah adalah berturut-turut, pembolehubah sendiri boleh berturut-turut atau terpisah, sifat garis regresen adalah linear.
Regresen linear menggunakan garis lurus penyesuaian terbaik ((iaitu garis regresi) untuk mewujudkan hubungan antara pembolehubah akibat ((Y) dan satu atau lebih pembolehubah diri ((X)).
Ia boleh dirujuk dengan persamaan Y=a+b.*X + e, di mana a mewakili jarak, b mewakili kecenderungan garis lurus, dan e adalah titik kesilapan. Persamaan ini boleh meramalkan nilai pembolehubah sasaran berdasarkan pembolehubah ramalan yang diberikan (s).

Perbezaan antara regresi unilinear dan regresi multilinear ialah regresi multilinear mempunyai ((>1) pembolehubah, manakala regresi unilinear biasanya hanya mempunyai 1 pembolehubah. Persoalannya sekarang ialah bagaimana kita mendapatkan garis penyesuaian yang optimum?
Bagaimana untuk mendapatkan nilai-nilai yang paling sesuai (a dan b)?
Masalah ini dapat dilakukan dengan mudah dengan menggunakan penggandaan dua terendah. Penggandaan dua terendah juga merupakan kaedah yang paling biasa digunakan untuk menyesuaikan garis regresi. Untuk data pemerhatian, ia mengira garis penyesuaian terbaik dengan meminimumkan jumlah kuadrat penyimpangan menegak setiap titik data ke garis.

Kita boleh menggunakan R-square metrik untuk menilai prestasi model. Untuk maklumat lanjut mengenai metrik ini, baca: Metrik Prestasi Model Part 1, Part 2 .
Maksudnya:
Regresen logik digunakan untuk mengira kebarangkalian peristiwa bertepatan =Success dan peristiwa bertepatan =Failure. Kita harus menggunakan regresen logik apabila jenis pembolehubah adalah pembolehubah binari ((1⁄0, benar/palsu, ya/tidak). Di sini, nilai Y adalah dari 0 hingga 1, yang boleh dinyatakan dengan persamaan berikut:
odds= p/ (1-p) = probability of event occurrence / probability of not event occurrence
ln(odds) = ln(p/(1-p))
logit(p) = ln(p/(1-p)) = b0+b1X1+b2X2+b3X3....+bkXk
Dalam formula di atas, p menyatakan kebarangkalian mempunyai ciri-ciri tertentu. Anda sepatutnya bertanya soalan ini: Oh, mengapa kita menggunakan log log dalam formula? Oh.
Kerana di sini kita menggunakan sebaran binomial ((variabel), kita perlu memilih satu fungsi penghubung yang terbaik untuk sebaran ini. Ia adalah fungsi Logit. Dalam persamaan di atas, parameter dipilih dengan mengamati sampel yang sangat berkemungkinan untuk menganggarkan nilai, dan bukannya meminimumkan kuasa dua dan kesilapan (seperti yang digunakan dalam Regression Biasa).

Maksudnya:
Untuk persamaan regresi, jika indeks pembolehubah sendiri lebih besar daripada 1, maka ia adalah persamaan regresi polinomial. Persamaan berikut ditunjukkan:
y=a+b*x^2
Dalam teknik regresi ini, garis penyesuaian yang terbaik bukanlah garis lurus. Ia adalah satu keluk yang digunakan untuk penyesuaian titik data.

Penekanan:

Dalam teknik ini, pemilihan pembolehubah dilakukan dalam proses automatik, termasuk operasi bukan manusia.
Kejayaan ini adalah untuk mengenal pasti pembolehubah penting dengan melihat nilai statistik seperti R-square, t-stats dan AIC. Regresen beransur-ansur menyesuaikan model dengan menambah / menghapuskan pembolehubah bersama berdasarkan piawaian yang ditetapkan. Berikut adalah beberapa kaedah regresen beransur-ansur yang paling biasa digunakan:
Analisis regresi berlian adalah satu teknik yang digunakan untuk data yang mempunyai banyak komorbiditi. Dalam keadaan yang banyak komorbiditi, walaupun penggandaan minimum (OLS) adalah adil untuk setiap pembolehubah, perbezaan mereka sangat besar, menyebabkan nilai pengamatan menyimpang dan jauh dari nilai sebenar. Regresi berlian mengurangkan kesilapan piawai dengan menambah satu bias pada anggaran regresi yang diberikan.
Di atas, kita melihat persamaan regresi linear. Ingat? Ia boleh dinyatakan sebagai:
y=a+ b*x
Persamaan ini juga mempunyai satu kesalahan. Persamaan lengkapnya ialah:
y=a+b*x+e (error term), [error term is the value needed to correct for a prediction error between the observed and predicted value]
=> y=a+y= a+ b1x1+ b2x2+....+e, for multiple independent variables.
Dalam persamaan linear, kesilapan ramalan boleh dipecah menjadi 2 subpartikel. Salah satu adalah bias dan satu adalah perbezaan. Kesalahan ramalan mungkin disebabkan oleh kedua-dua faktor atau salah satu daripadanya. Di sini, kita akan membincangkan mengenai kesilapan yang disebabkan oleh perbezaan.
Pengembalian berlian menyelesaikan masalah komalineriti berganda dengan parameter pengurangan λ ((lambda)). Lihat formula di bawah

Dalam formula ini, terdapat dua komponen. Yang pertama adalah binomial terkecil, dan yang lain adalah kelipatan λ dari β2 ((β-squared), di mana β adalah faktor yang berkaitan. Untuk meringkaskan parameter, tambahkannya ke dalam binomial terkecil untuk mendapatkan perbezaan yang sangat rendah.
Maksudnya:
Ianya serupa dengan pengurangan berlian, Lasso (Least Absolute Shrinkage and Selection Operator) juga menghukum saiz mutlak faktor pengurangan. Selain itu, ia dapat mengurangkan tahap perubahan dan meningkatkan ketepatan model pengurangan linear. Lihat formula di bawah:

Regresen Lasso sedikit berbeza dengan Regresen Ridge, ia menggunakan fungsi hukuman sebagai nilai mutlak dan bukannya kuasa dua. Ini menyebabkan hukuman (atau sama dengan jumlah nilai mutlak yang diikat) membuat beberapa parameter yang dianggarkan sama dengan sifar.
Maksudnya:
ElasticNet adalah campuran antara Lasso dan teknik Regression Ridge. Ia menggunakan L1 untuk latihan dan L2 sebagai matriks penyesuaian. ElasticNet berguna apabila terdapat beberapa ciri yang berkaitan. Lasso akan memilih salah satu daripada mereka secara rawak, manakala ElasticNet akan memilih dua.

Kelebihan praktikal antara Lasso dan Ridge adalah bahawa ia membolehkan ElasticNet mewarisi beberapa kestabilan Ridge dalam keadaan pusing.
Maksudnya:
Bagaimana untuk memilih model regresi yang betul?
Kehidupan biasanya lebih mudah apabila anda hanya tahu satu atau dua teknik. Satu institusi latihan yang saya tahu memberitahu pelajar mereka bahawa jika hasilnya adalah berturut-turut, gunakan regresi linear. Jika ia adalah binari, gunakan regresi logik.
Dalam model regresi pelbagai jenis, sangat penting untuk memilih teknik yang paling sesuai berdasarkan jenis pembolehubah dan pembolehubah faktor, dimensi data, dan ciri asas lain data. Berikut adalah faktor penting untuk memilih model regresi yang betul:
Penjelajahan data adalah bahagian penting dalam membina model ramalan. Ia harus menjadi langkah utama dalam memilih model yang sesuai, seperti mengenal pasti hubungan dan pengaruh pembolehubah.
Lebih sesuai dengan kelebihan model yang berbeza, kita boleh menganalisis parameter penunjuk yang berbeza, seperti parameter yang bermakna secara statistik, R-square, Adjusted R-square, AIC, BIC, dan titik kesilapan, dan yang lain adalah peraturan Mallows’ Cp. Ini dilakukan terutamanya dengan membandingkan model dengan semua submodel yang mungkin (atau memilihnya dengan berhati-hati), memeriksa kemungkinan penyimpangan dalam model anda.
Penyelesaian silang adalah kaedah terbaik untuk menilai model ramalan. Di sini, bahagikan set data anda kepada dua bahagian (satu untuk latihan dan satu untuk pengesahan). Gunakan perbezaan rata sederhana antara nilai pemerhatian dan nilai ramalan untuk mengukur ketepatan ramalan anda.
Jika anda mempunyai set data dengan pelbagai pembolehubah campuran, anda tidak boleh memilih kaedah pemilihan model automatik, kerana anda tidak mahu meletakkan semua pembolehubah dalam model yang sama pada masa yang sama.
Ia juga bergantung kepada tujuan anda. Ia mungkin berlaku bahawa model yang kurang kuat lebih mudah dilaksanakan berbanding model yang mempunyai makna statistik yang tinggi.
Kaedah regresi normalisasi ((Lasso, Ridge dan ElasticNet) berfungsi dengan baik dalam keadaan komutatif berganda antara variabel set data berdimensi tinggi.
Dipetik dari CSDN