7 Teknik Kembali yang Perlu Anda Kuasai

Penulis:Mimpi kecil, Dicipta: 2016-12-18 10:22:43, Dikemas kini: 2016-12-18 11:08:56

7 Teknik Kembali yang Perlu Anda Kuasai


Artikel ini menerangkan analisis regresi dan kelebihan-kelebihannya, memberi tumpuan kepada ringkasan tujuh teknik regresi yang paling biasa digunakan, iaitu regresi linear, regresi logik, regresi polynomial, regresi beransur-ansur, regresi kerucut, regresi permintaan, regresi ElasticNet dan elemen-elemen penting yang harus dikuasai, dan akhirnya memperkenalkan faktor-faktor penting dalam memilih model regresi yang betul. ** ** Analisis regresi butang pengkompiler adalah alat penting untuk pemodelan dan analisis data. Artikel ini menerangkan makna dan kelebihan analisis regresi, dengan memberi tumpuan kepada ringkasan tujuh teknik regresi yang paling biasa digunakan, iaitu regresi linear, regresi logik, regresi multi-item, regresi beransur-ansur, regresi acuan, regresi ElasticNet, dan elemen-elemen penting mereka, dan akhirnya memperkenalkan faktor-faktor penting dalam memilih model regresi yang betul.

  • Apakah analisis regresi?

    Analisis regresi adalah teknik pemodelan prediktif yang mengkaji hubungan antara pembolehubah disebabkan (target) dan pembolehubah sendiri (predictor). Teknik ini sering digunakan untuk analisis prediktif, model urutan masa dan hubungan sebab antara pembolehubah yang ditemui. Sebagai contoh, hubungan antara pemandu yang tidak berhati-hati dan jumlah kemalangan jalan raya, kaedah penyelidikan yang terbaik adalah regresi.

    Analisis regresi adalah alat penting untuk pemodelan dan analisis data. Di sini, kita menggunakan kurva/garis untuk menyesuaikan titik-titik data ini, dengan cara ini, perbezaan jarak dari kurva atau garis ke titik data adalah minimum. Saya akan menerangkan ini secara terperinci di bahagian seterusnya.

    img

  • Mengapa kita menggunakan analisis regresi?

    Seperti yang dinyatakan di atas, analisis regresi menganggarkan hubungan antara dua atau lebih pembolehubah. Di bawah, mari kita berikan contoh mudah untuk memahaminya:

    Sebagai contoh, dalam keadaan ekonomi semasa, anda perlu menganggarkan pertumbuhan jualan syarikat. Sekarang, anda mempunyai data terkini syarikat yang menunjukkan pertumbuhan jualan adalah kira-kira 2.5 kali pertumbuhan ekonomi. Kemudian menggunakan analisis regresi, kita boleh meramalkan jualan syarikat masa depan berdasarkan maklumat semasa dan masa lalu.

    Penggunaan analisis regresi mempunyai banyak faedah.

    Ia menunjukkan hubungan yang ketara antara pembolehubah sendiri dan pembolehubah disebabkan;

    Ia menunjukkan kekuatan kesan pelbagai pembolehubah diri terhadap satu pembolehubah.

    Analisis regresi juga membolehkan kita membandingkan kesan antara pembolehubah yang mengukur pelbagai skala, seperti hubungan antara perubahan harga dan jumlah aktiviti promosi. Ini membantu penyelidik pasaran, penganalisis data, dan saintis data mengecualikan dan menganggarkan satu set pembolehubah terbaik untuk membina model ramalan.

  • Berapa banyak teknologi regresi yang kita ada?

    Terdapat pelbagai teknik regresi yang digunakan untuk membuat ramalan. Teknik ini mempunyai tiga metrik utama (jumlah individu dari pembolehubah, jenis pembolehubah dan bentuk garis regresi). Kami akan membincangkannya secara terperinci di bahagian berikut.

    img

    Bagi mereka yang kreatif, anda boleh membuat model regresi yang tidak digunakan jika anda merasa perlu menggunakan gabungan parameter di atas. Tetapi sebelum anda mula, ketahui kaedah regresi yang paling biasa digunakan:

    • 1. Regresi Linear Regresi Linear

      Ia adalah salah satu teknik pemodelan yang paling dikenali. Regresi linear biasanya merupakan salah satu teknik pilihan ketika belajar model ramalan. Dalam teknik ini, kerana pembolehubah adalah berterusan, pembolehubah sendiri boleh berturut-turut atau bersatu, sifat garis regresi adalah linear.

      Regresi linear menggunakan garis lurus yang paling sesuai (atau garis regresi) untuk mewujudkan hubungan antara pembolehubah akibat (Y) dan satu atau lebih pembolehubah diri (X).

      Ia diwakili dengan persamaan, iaitu Y = a + b * X + e, di mana a menunjukkan jarak persimpangan, b menunjukkan kemiringan garis lurus, dan e adalah parameter ralat. Persamaan ini boleh meramalkan nilai pembolehubah sasaran berdasarkan pembolehubah ramalan yang diberikan.

      img

      Perbezaan antara regresi unilineal dan regresi multilineal ialah regresi multilineal mempunyai < 1 self-variable, sedangkan regresi unilineal biasanya hanya mempunyai satu self-variable. Sekarang persoalan adalah bagaimana kita mendapatkan garis yang paling sesuai?

      Bagaimana untuk mendapatkan garis yang paling sesuai (nilai a dan b)?

      Masalah ini boleh diselesaikan dengan mudah dengan penggandaan dua terendah. Penggandaan dua terendah juga merupakan kaedah yang paling biasa digunakan untuk menyamakan garisan regresi. Untuk data pengamatan, ia mengira garisan yang paling sesuai dengan meminimumkan jumlah persegi dua deviasi menegak dari setiap titik data ke garisan. Oleh kerana perpaduan adalah berturut-turut, nilai positif dan negatif tidak diimbangi.

      img

      Kita boleh menggunakan R-square untuk menilai prestasi model. Untuk maklumat terperinci mengenai indikator ini, anda boleh membaca: Model Performance Indicator Part 1, Part 2.

      Perhatikan:

      • Hubungan antara pembolehubah sendiri dan pembolehubah disebabkan mestilah berbaris.
      • Kemunduran berganda mempunyai pelbagai kesamaan, kesesuaian dan perbezaan heterogen.
      • Regresi linear sangat sensitif terhadap nilai keanehan. Ia boleh menjejaskan garis regresi dengan teruk dan akhirnya mempengaruhi nilai ramalan.
      • Multiple convexity meningkatkan perbezaan dalam anggaran koefisien, menjadikan anggaran sangat sensitif dengan perubahan kecil dalam model. Hasilnya, anggaran koefisien tidak stabil.
      • Dalam kes pelbagai self-variable, kita boleh menggunakan pilihan ke hadapan, penghapusan ke belakang, dan penyaringan beransur-ansur untuk memilih self-variable yang paling penting.
    • 2. Logistic Regression logik regresi

      Regresi logik digunakan untuk mengira kebarangkalian kejadian Y = Kesuksesan Y dan kejadian Y = Kegagalan Y. Apabila jenis pembolehubah adalah binari ((1/0, benar/salah, ya/tidak) pembolehubah, kita harus menggunakan regresi logik. Di sini, nilai Y dari 0 hingga 1, ia boleh dinyatakan dengan persamaan berikut.

      odds= p/ (1-p) = probability of event occurrence / probability of not event occurrence
      ln(odds) = ln(p/(1-p))
      logit(p) = ln(p/(1-p)) = b0+b1X1+b2X2+b3X3....+bkXk
      

      Dalam formula di atas, p menyatakan kebarangkalian mempunyai ciri tertentu. Anda harus bertanya soalan seperti ini: Kenapa kita menggunakan log log dalam formula?

      Oleh kerana di sini kita menggunakan pembahagian dua (disebabkan oleh pemboleh ubah), kita perlu memilih fungsi penghubung yang terbaik untuk pembahagian ini. Ia adalah fungsi Logit. Dalam persamaan di atas, parameter dipilih dengan melihat nilai anggaran sampel yang sangat serupa, dan bukannya meminimumkan kuadrat dan kesilapan (seperti yang digunakan dalam regresi biasa).

      img

      Perhatikan:

      • Ia digunakan secara meluas untuk masalah klasifikasi.
      • Regresi logik tidak memerlukan pembolehubah diri dan kerana pembolehubah adalah hubungan linear. Ia dapat menangani pelbagai jenis hubungan kerana ia menggunakan penukaran log bukan linear terhadap indeks risiko relatif OR yang diramalkan.
      • Untuk mengelakkan terlalu sesuai dan kurang sesuai, kita harus memasukkan semua pembolehubah yang penting. Satu cara yang baik untuk memastikan ini adalah dengan menggunakan kaedah penyaringan langkah demi langkah untuk menganggarkan regresi logik.
      • Ia memerlukan jumlah sampel yang besar, kerana dengan jumlah sampel yang kecil, kesan yang sangat serupa adalah dua kali ganda lebih buruk daripada yang biasa.
      • Variabel tidak boleh dikaitkan antara satu sama lain, iaitu tidak mempunyai pelbagai kesamaan garis. Walau bagaimanapun, dalam analisis dan pemodelan, kita boleh memilih untuk memasukkan kesan interaksi variabel klasifikasi.
      • Jika nilai pemboleh ubah adalah pemboleh ubah yang disusun, ia dipanggil regresi logik urutan.
      • Jika pemboleh ubah adalah pelbagai, ia dipanggil regresi logik pelbagai.
    • 3. Regresi Polinomial

      Untuk persamaan regresi, jika indeks pembolehubah diri lebih besar daripada 1, maka ia adalah persamaan regresi berbilang.

      y=a+b*x^2
      

      Dalam teknik regresi ini, garis yang paling sesuai bukanlah garis lurus; tetapi merupakan kurva yang digunakan untuk menyesuaikan titik data.

      img

      Fungsi utama:

      • Walaupun akan ada penginduksi yang boleh menyesuaikan dengan formula pelbagai peringkat tinggi dan mendapat kesilapan yang lebih rendah, ini boleh menyebabkan overfit. Anda perlu sering melukis carta hubungan untuk melihat keadaan yang sesuai, dan memberi tumpuan kepada memastikan kecocokan adalah wajar, tidak ada overfit dan tidak ada underfit. Berikut adalah contoh yang dapat membantu memahami:

      img

      • Cari titik-titik lengkung yang jelas di kedua-dua hujung untuk melihat apakah bentuk dan trend ini bermakna; polinomial yang lebih tinggi mungkin akhirnya menghasilkan kesimpulan yang pelik.
    • 4. Regresi Stepwise secara beransur-ansur

      Dalam menangani pelbagai pembolehubah diri, kita boleh menggunakan bentuk regresi ini. Dalam teknik ini, pemilihan pembolehubah diri dilakukan dalam proses automatik, termasuk pengendalian bukan manusia.

      Ini adalah usaha untuk mengenal pasti pembolehubah yang penting dengan melihat nilai statistik, seperti R-square, t-stats, dan penunjuk AIC. Regresi step by step dengan menambahkan/mengurangkan pembolehubah bersama berdasarkan kriteria tertentu untuk menyesuaikan model. Berikut adalah beberapa kaedah regresi step by step yang paling biasa digunakan:

      • Standard PGR melakukan dua perkara. Ia adalah menambah dan menghilangkan ramalan yang diperlukan untuk setiap langkah.
      • Pemilihan ke hadapan bermula dengan ramalan yang paling ketara dalam model dan kemudian menambah pembolehubah untuk setiap langkah.
      • Penghapusan ke belakang bermula pada masa yang sama dengan semua ramalan model, dan kemudian menghapuskan pembolehubah yang paling penting pada setiap langkah.
      • Tujuan teknik pemodelan ini adalah untuk memaksimumkan keupayaan ramalan dengan menggunakan bilangan pembolehubah ramalan yang minimum. Ini juga merupakan salah satu kaedah untuk menangani set data berdimensi tinggi.
    • 5. Kembali Kembali Ridge

      Analisis regresi ion adalah satu teknik yang digunakan untuk data yang mempunyai pelbagai sinonim (yang berkaitan dengan ketinggian pembolehubah). Dalam keadaan sinonim ion, walaupun penggandaan minimum dua (OLS) adalah adil untuk setiap pembolehubah, perbezaan mereka sangat besar sehingga nilai pemerhatian menyimpang dan jauh dari nilai sebenar. Regresi ion mengurangkan ralat standard dengan menambah satu kelainan pada anggaran untuk kembali.

      Di atas, kita melihat persamaan regresi linear. Ingat? Ia boleh dinyatakan sebagai:

      y=a+ b*x
      

      Persamaan ini juga mempunyai istilah ralat. Persamaan lengkap ialah:

      y=a+b*x+e (error term),  [error term is the value needed to correct for a prediction error between the observed and predicted value]
      => y=a+y= a+ b1x1+ b2x2+....+e, for multiple independent variables.
      

      Dalam persamaan linear, kesilapan ramalan boleh dipecah kepada dua sub-pembahagian. Satu adalah kesesuaian dan satu adalah perbezaan. Kesesuaian ramalan mungkin disebabkan oleh kedua-dua pecahan ini atau salah satu daripada keduanya. Di sini kita akan membincangkan kesalahan yang berkaitan yang disebabkan oleh perbezaan.

      Kembalian helium menyelesaikan masalah kesemutan berganda dengan parameter pengecutan λ (lambda); lihat formula di bawah.

      img

      Dalam formula ini, terdapat dua komponen. Yang pertama adalah binomial terkecil, dan yang lain adalah λ kali β2 ((β-kuadrat), di mana β adalah faktor yang berkaitan. Untuk menyempitkan parameter, tambahkan kepada binomial terkecil untuk mendapatkan perbezaan kuadrat yang sangat rendah.

      Perhatikan:

      • Kecuali untuk bilangan tetap, hipotesis regresi ini serupa dengan regresi dua kali minimum;
      • Ia mengecilkan nilai faktor yang berkaitan, tetapi tidak mencapai sifar, yang menunjukkan bahawa ia tidak mempunyai ciri pilihan
      • Ini adalah kaedah pengaturan semula, dan menggunakan pengaturan semula L2.
    • 6. Lasso Regression Regression

      Ia menyerupai regresi ion, dengan Lasso (Least Absolute Shrinkage and Selection Operator) juga menghukum saiz nilai mutlak faktor regresi. Ia juga dapat mengurangkan perubahan dan meningkatkan ketepatan model regresi linear. Lihat formula di bawah:

      img

      Regresi Lasso sedikit berbeza dengan Regresi Ridge, yang menggunakan fungsi hukuman yang adalah nilai mutlak, bukan kuasa dua. Ini menyebabkan nilai hukuman (atau sama dengan jumlah nilai mutlak anggaran yang tertakluk) menjadikan hasil anggaran beberapa parameter sama dengan sifar. Penggunaan nilai hukuman yang lebih besar, anggaran lebih lanjut akan membuat nilai mengecil lebih dekat dengan sifar. Ini akan menyebabkan kita memilih pembolehubah dari n pembolehubah yang diberikan.

      Perhatikan:

      • Kecuali untuk bilangan tetap, hipotesis regresi ini serupa dengan regresi dua kali minimum;
      • Ia mempunyai penganjur penyusutan hampir sifar (=0), yang memang membantu dalam pemilihan ciri;
      • Ini adalah kaedah pengaturan yang menggunakan pengaturan L1;
      • Jika satu set pembolehubah yang diramalkan adalah sangat berkaitan, Lasso akan memilih salah satu daripada pembolehubah tersebut dan menyempitkan yang lain kepada sifar.
    • 7.ElasticNet回归

      ElasticNet adalah gabungan antara Lasso dan teknik regresi Ridge. Ia menggunakan L1 untuk melatih dan L2 sebagai matriks yang diutamakan untuk menregulasi. ElasticNet berguna apabila terdapat beberapa ciri yang berkaitan. Lasso akan memilih salah satu daripada mereka secara rawak, sementara ElasticNet akan memilih dua.

      img

      Kelebihan sebenar antara Lasso dan Ridge ialah ia membolehkan ElasticNet mewarisi beberapa kestabilan Ridge dalam keadaan berputar.

      Perhatikan:

      • Dalam kes pembolehubah yang sangat berkaitan, ia mempunyai kesan kumpulan;
      • Tidak ada had jumlah pembolehubah yang boleh dipilih;
      • Ia boleh menahan penyusutan berganda.
      • Selain daripada 7 teknik regresi yang paling biasa digunakan, anda boleh melihat model lain seperti Bayesian, Ekologi dan Regresi Robust.
    • Bagaimana untuk memilih model regresi yang betul?

      Hidup sering menjadi lebih mudah apabila anda hanya tahu satu atau dua teknik. Saya tahu sebuah institusi latihan memberitahu pelajar mereka untuk menggunakan regresi linear jika hasilnya adalah berterusan. Jika ia adalah binari, gunakan regresi logik! Walau bagaimanapun, dalam proses kami, semakin banyak pilihan, semakin sukar untuk memilih yang betul.

      Dalam model regresi pelbagai kelas, memilih teknik yang paling sesuai adalah penting berdasarkan jenis pembolehubah sendiri dan faktor pembolehubah, dimensi data, dan ciri asas lain data. Berikut adalah faktor-faktor penting untuk memilih model regresi yang betul:

      Penjelajahan data adalah bahagian yang tidak dapat dielakkan dalam membina model ramalan. Ia harus menjadi langkah utama dalam memilih model yang sesuai, seperti mengenal pasti hubungan dan kesan pembolehubah.

      Kelebihan yang lebih sesuai untuk model yang berbeza ialah kita boleh menganalisis parameter penunjuk yang berbeza, seperti parameter yang bermakna statistik, R-square, Adjusted R-square, AIC, BIC dan parameter ralat, yang lain adalah Mallows-Cp guideline. Ini adalah terutamanya dengan membandingkan model dengan semua submodel yang mungkin (atau memilih mereka dengan berhati-hati) untuk memeriksa penyimpangan yang mungkin berlaku dalam model anda.

      Pemantauan silang adalah kaedah terbaik untuk menilai model ramalan. Di sini, pisahkan dataset anda kepada dua bahagian (satu untuk latihan dan satu untuk pengesahan). Menggunakan perbezaan rata sederhana antara nilai pemerhatian dan nilai ramalan untuk mengukur ketepatan ramalan anda.

      Jika set data anda adalah pelbagai pembolehubah campuran, maka anda tidak boleh memilih kaedah pemilihan model automatik, kerana anda tidak boleh mahu meletakkan semua pembolehubah dalam model yang sama pada masa yang sama.

      Ia juga akan bergantung kepada tujuan anda. Ada kemungkinan bahawa model yang kurang kuat lebih mudah dilaksanakan berbanding model yang mempunyai kepentingan statistik yang tinggi.

      Kaedah regularizasi regresi (Lasso, Ridge, dan ElasticNet) berfungsi dengan baik dalam kes simon linear berganda antara dimensi tinggi dan pembolehubah set data.

Dipindahkan dari CSDN


Lebih lanjut