Tujuh Teknik Kembali yang Harus Anda Ketahui

Penulis:Mimpi kecil, Dibuat: 2016-12-18 10:22:43, Diperbarui: 2016-12-18 11:08:56

Tujuh Teknik Kembali yang Harus Anda Ketahui


Artikel ini menjelaskan analisis regresi dan keunggulannya, dengan fokus menyimpulkan tujuh teknik regresi yang paling umum digunakan, yaitu regresi linier, logis, multi-item, step-by-step, tang, suffix, dan ElasticNet, dan elemen-elemen kunci yang harus dikuasai, dan akhirnya memperkenalkan faktor-faktor kunci dalam memilih model regresi yang benar. ** ** Analisis regresi tombol pengkompilasi adalah alat penting untuk pemodelan dan analisis data. Artikel ini menjelaskan arti dan manfaat dari analisis regresi, dengan fokus pada penyusunan tujuh teknik regresi yang paling umum digunakan, yaitu regresi linier, regresi logis, regresi multi-item, regresi bertahap, regresi acak, regresi suffix, regresi ElasticNet, dan elemen-elemen kunci mereka, dan akhirnya memperkenalkan faktor kunci untuk memilih model regresi yang benar.

  • Apa itu analisis regresi?

    Analisis regresi adalah teknik pemodelan prediktif yang mempelajari hubungan antara variabel penyebab (target) dan variabel induk (predictor). Teknik ini sering digunakan untuk analisis prediktif, model urutan waktu, dan hubungan kausal antara variabel yang ditemukan. Sebagai contoh, hubungan antara pengemudi yang sembrono dan jumlah kecelakaan lalu lintas jalanan, metode penelitian terbaik adalah regresi.

    Analisis regresi adalah alat penting untuk pemodelan dan analisis data. Di sini, kita menggunakan kurva/garis untuk mencocokkan titik-titik data ini, dengan cara ini, perbedaan jarak dari kurva atau garis ke titik-titik data minimal. Saya akan menjelaskan ini secara rinci di bagian berikutnya.

    img

  • Mengapa kita menggunakan analisis regresi?

    Seperti yang disebutkan di atas, analisis regresi memperkirakan hubungan antara dua atau lebih variabel. Di bawah ini, mari kita berikan contoh sederhana untuk memahaminya:

    Misalnya, dalam kondisi ekonomi saat ini, Anda ingin memperkirakan pertumbuhan penjualan perusahaan. Sekarang, Anda memiliki data terbaru perusahaan yang menunjukkan bahwa pertumbuhan penjualan adalah sekitar 2,5 kali pertumbuhan ekonomi.

    Ada banyak manfaat dari analisis regresi.

    Hal ini menunjukkan hubungan yang signifikan antara variabel autonomi dan variabel faktorisasi.

    Ini menunjukkan intensitas pengaruh dari beberapa variabel pada suatu variabel.

    Analisis regresi juga memungkinkan kita untuk membandingkan interaksi antara variabel yang mengukur skala yang berbeda, seperti hubungan antara perubahan harga dan jumlah kegiatan promosi. Ini membantu peneliti pasar, analis data, dan ilmuwan data untuk mengecualikan dan memperkirakan seperangkat variabel terbaik untuk membangun model prediksi.

  • Bagaimana dengan teknologi regresi yang kita miliki?

    Ada berbagai teknik regresi yang digunakan untuk memprediksi. Teknik-teknik ini memiliki tiga metrik utama (jumlah individu dari variabel, jenis variabel, dan bentuk garis regresi). Kami akan membahasnya secara rinci di bagian berikut.

    img

    Untuk orang-orang yang kreatif, Anda bahkan dapat membuat model regresi yang belum pernah digunakan jika Anda merasa perlu menggunakan kombinasi dari parameter di atas.

    • 1. Regresi linier Regresi linier

      Ini adalah salah satu teknik pemodelan yang paling dikenal. Regresi linier sering menjadi salah satu teknik yang disukai ketika belajar model prediksi. Dalam teknik ini, karena variabelnya berkelanjutan, variabel dapat berturut-turut atau terpisah, sifat garis regresi bersifat linier.

      Regresi linier menggunakan garis lurus yang paling cocok (yaitu garis regresi) untuk membangun hubungan antara variabel penyebab (Y) dan satu atau lebih variabel induk (X).

      Hal ini diwakili dengan persamaan, yaitu Y = a + b * X + e, di mana a menunjukkan perpisahan, b menunjukkan kemiringan garis lurus, dan e adalah titik kesalahan. Persamaan ini dapat memprediksi nilai variabel target berdasarkan variabel prediktif s yang diberikan.

      img

      Perbedaan antara regresi unilinear dan regresi multilinear adalah bahwa regresi multilinear memiliki > 1 variabel diri, sedangkan regresi unilinear biasanya hanya memiliki satu variabel diri. Sekarang pertanyaannya adalah bagaimana kita mendapatkan garis yang paling cocok?

      Bagaimana cara mendapatkan garis yang paling cocok (nilai a dan b)?

      Masalah ini dapat dengan mudah diselesaikan dengan perkalian paling kecil duaan. Perkalian paling kecil duaan juga merupakan metode yang paling umum digunakan untuk menyesuaikan garis regresi. Untuk data observasi, hal ini dilakukan dengan meminimalkan jumlah kuadrat deviasi vertikal dari setiap titik data ke garis untuk menghitung garis yang optimal duaan.

      img

      Kita dapat menggunakan indikator R-square untuk menilai kinerja model. Untuk informasi lebih lanjut tentang indikator-indikator ini, baca: Model Performance Indicator Part 1, Part 2.

      Di sini ada beberapa tips.

      • Hubungan antara variabel sendiri dan variabel akibat harus bersifat linier
      • Kembali multi-regression memiliki banyak kesamaan linier, keterkaitan dan perbedaan heterogen.
      • Regresi linier sangat sensitif terhadap nilai yang tidak normal. Ini akan sangat mempengaruhi garis regresi dan akhirnya mempengaruhi nilai yang diprediksi.
      • Multiple convexity meningkatkan perbedaan estimasi koefisien, membuat estimasi sangat sensitif pada perubahan model yang sedikit. Hasilnya adalah estimasi koefisien tidak stabil.
      • Dalam kasus beberapa variabel utama, kita dapat menggunakan metode pemilihan maju, penghapusan mundur, dan penyaringan bertahap untuk memilih variabel utama.
    • 2. Logistic Regression Regression logis

      Regresi logis digunakan untuk menghitung probabilitas dari peristiwa-peristiwa yang terjadi pada saat-saat tertentu. Jika tipe variabel tersebut adalah biner ((1/0, true/false, yes/no) variabel, maka kita harus menggunakan regresi logis. Di sini, nilai Y adalah dari 0 hingga 1, yang dapat dinyatakan dengan persamaan berikut.

      odds= p/ (1-p) = probability of event occurrence / probability of not event occurrence
      ln(odds) = ln(p/(1-p))
      logit(p) = ln(p/(1-p)) = b0+b1X1+b2X2+b3X3....+bkXk
      

      Dalam rumus di atas, ekspresi p memiliki probabilitas untuk suatu sifat. Anda mungkin bertanya: Mengapa kita menggunakan logaritma logaritma dalam rumus?

      Karena di sini kita menggunakan distribusi biner (karena variabel), kita perlu memilih fungsi penghubung yang terbaik untuk distribusi ini. Fungsi ini adalah fungsi Logit. Dalam persamaan di atas, parameter dipilih dengan mempertimbangkan estimasi sampel yang sangat mirip, bukan meminimalkan kuadrat dan kesalahan (seperti yang digunakan dalam regresi biasa).

      img

      Di sini ada beberapa tips.

      • Ini digunakan secara luas untuk masalah klasifikasi.
      • Regresi logis tidak memerlukan variabel diri dan karena variabel adalah hubungan linier. Ia dapat menangani berbagai jenis hubungan karena ia menggunakan konversi log non-linier pada indeks risiko relatif OR yang diprediksi.
      • Untuk menghindari overfit dan underfit, kita harus memasukkan semua variabel penting. Satu cara yang bagus untuk memastikan hal ini adalah dengan menggunakan metode penyaringan bertahap untuk memperkirakan regresi logis.
      • Hal ini membutuhkan jumlah sampel yang besar, karena dalam kasus sampel yang lebih kecil, estimasi efek yang sangat mirip jauh lebih buruk daripada dua kali lipat terkecil yang biasa.
      • Variabel-variabel ini seharusnya tidak saling terkait, yaitu tidak memiliki ko-linearitas ganda. Namun, dalam analisis dan pemodelan, kita dapat memilih untuk memasukkan pengaruh interaksi variabel klasifikasi.
      • Jika nilai dari variabel tersebut adalah variabel yang diurutkan, maka disebut sebagai regresi logis urutan.
      • Jika suatu variabel memiliki banyak kelas, maka itu disebut regressi logis plurilogis.
    • 3. Regresi polinomial

      Untuk persamaan regresi, jika indeks variabel diri lebih besar dari 1, maka itu adalah persamaan regresi multipolar.

      y=a+b*x^2
      

      Dalam teknik regresi ini, garis yang paling cocok bukan garis lurus; melainkan sebuah kurva yang digunakan untuk menyesuaikan titik data.

      img

      Hal-hal penting:

      • Meskipun akan ada induksi yang dapat menyesuaikan dengan polinomial tingkat tinggi dan mendapatkan kesalahan yang lebih rendah, ini dapat menyebabkan overfit. Anda perlu sering menggambar diagram hubungan untuk melihat kondisi fit, dan fokus untuk memastikan bahwa fit masuk akal, tidak ada overfit dan tidak ada underfit. Berikut adalah contoh yang dapat membantu memahami:

      img

      • Carilah titik-titik kurva yang jelas di kedua ujungnya, dan lihat apakah bentuk dan tren ini berarti; polinomial tingkat tinggi akhirnya dapat menghasilkan kesimpulan aneh.
    • Stepwise Regression Kembali bertahap

      Dalam menangani beberapa variabel otomatis, kita dapat menggunakan bentuk regresi ini. Dalam teknik ini, pemilihan variabel otomatis dilakukan dalam proses otomatis, termasuk operasi non-manusia.

      Hal ini dilakukan untuk mengidentifikasi variabel penting dengan mengamati nilai-nilai statistik, seperti R-square, t-stats, dan indikator AIC. Regresi bertahap dilakukan dengan menambahkan/menghilangkan ko-variabel berdasarkan kriteria tertentu pada saat yang sama untuk menyesuaikan model. Berikut adalah beberapa metode regresi bertahap yang paling umum digunakan:

      • Metode regresi standar melakukan dua hal; yaitu menambahkan dan menghapus prediksi yang diperlukan untuk setiap langkah.
      • Cara memilih ke depan dimulai dengan prediksi yang paling menonjol dalam model, dan kemudian variabel ditambahkan untuk setiap langkah.
      • Pengurangan mundur dimulai pada saat yang sama dengan semua prediksi model, dan kemudian menghilangkan variabel yang paling signifikan pada setiap langkah.
      • Tujuan dari teknik pemodelan ini adalah untuk memaksimalkan kemampuan memprediksi dengan menggunakan jumlah variabel yang paling sedikit. Ini juga merupakan salah satu cara untuk menangani dataset berdimensi tinggi.
    • 5. Ridge Regression Retrograde

      Analisis regression sum adalah suatu teknik yang digunakan untuk data yang memiliki banyak kon linearitas. Dalam kasus kon linearitas sum, meskipun perkalian minimum dua (OLS) adalah adil untuk setiap variabel, perbedaan mereka sangat besar sehingga nilai pengamatan menyimpang dan jauh dari nilai sebenarnya. Regression sum mengurangi kesalahan standar dengan menambahkan satu deviasi pada estimasi regression.

      Di atas, kita melihat persamaan regresi linier. Ingat?

      y=a+ b*x
      

      Persamaan ini juga memiliki titik kesalahan. Persamaan lengkap adalah:

      y=a+b*x+e (error term),  [error term is the value needed to correct for a prediction error between the observed and predicted value]
      => y=a+y= a+ b1x1+ b2x2+....+e, for multiple independent variables.
      

      Dalam persamaan linear, kesalahan prediksi dapat dipecah menjadi dua subkomponen. Salah satunya adalah deviasi dan salah satunya adalah perbedaan. Kesalahan prediksi dapat disebabkan oleh dua atau salah satu dari dua faktor ini. Di sini kita akan membahas tentang kesalahan yang disebabkan oleh perbedaan.

      Kembali ketegangan memecahkan masalah kesamaan multi-linearitas dengan parameter pengecutan λ (lambda); lihat rumus di bawah ini.

      img

      Dalam rumus ini, ada dua komponen. Yang pertama adalah pangkat dua terkecil, dan yang lainnya adalah pangkat λ dari β2 ((β-kuadrat), di mana β adalah koefisien yang terkait. Untuk mempersempit parameter, tambahkan ke pangkat dua terkecil untuk mendapatkan perbedaan kuadrat yang sangat rendah.

      Di sini ada beberapa tips.

      • Kecuali untuk konstanta, hipotesis ini mirip dengan regressi dua kali lipat minimum.
      • Ini menyempit nilai dari koefisien yang terkait, tetapi tidak mencapai nol, yang menunjukkan bahwa tidak memiliki fitur pilihan.
      • Ini adalah metode reguler dan menggunakan reguler L2.
    • 6. Regresi Lasso

      Hal ini mirip dengan regressi ketebalan, Lasso (Least Absolute Shrinkage and Selection Operator) juga akan menghukum ukuran nilai absolut dari koefisien regressi. Selain itu, hal ini dapat mengurangi tingkat perubahan dan meningkatkan akurasi model regressi linier. Lihat rumus di bawah ini:

      img

      Regresi Lasso sedikit berbeda dengan Regresi Ridge, dimana fungsi hukuman yang digunakan adalah nilai absolut, bukan kuadrat. Hal ini menyebabkan nilai hukuman ((atau sama dengan jumlah nilai absolut dari estimasi pembatasan) membuat beberapa hasil estimasi parameter sama dengan nol.

      Di sini ada beberapa tips.

      • Kecuali untuk konstanta, hipotesis ini mirip dengan regressi dua kali lipat minimum.
      • Ini memiliki koefisien penyusutan yang mendekati nol (=0) yang memang membantu dalam pemilihan fitur;
      • Ini adalah metode reguler yang menggunakan reguler L1.
      • Jika satu set variabel yang diprediksi sangat relevan, Lasso akan memilih salah satu variabel dan menyempitkan yang lain menjadi nol.
    • 7.ElasticNet回归

      ElasticNet adalah campuran dari Lasso dan teknik regresi Ridge. Ia menggunakan L1 untuk melatih dan L2 sebagai prioritas matriks reguler. ElasticNet berguna ketika ada beberapa fitur yang terkait. Lasso secara acak memilih salah satu dari mereka, sedangkan ElasticNet memilih dua.

      img

      Keunggulan praktis antara Lasso dan Ridge adalah bahwa ia memungkinkan ElasticNet untuk mewarisi beberapa stabilitas Ridge dalam keadaan berputar.

      Di sini ada beberapa tips.

      • Dalam kasus variabel yang sangat relevan, itu menghasilkan efek kelompok;
      • Tidak ada batasan jumlah variabel yang dapat dipilih;
      • Ini dapat menahan kontraksi ganda.
      • Selain 7 teknik regresi yang paling umum digunakan, Anda dapat melihat model lain seperti Bayesian, Ecological, dan Robust Regression.
    • Bagaimana cara memilih model regresi yang tepat?

      Hidup seringkali sederhana ketika Anda hanya tahu satu atau dua teknik. Saya tahu sebuah lembaga pelatihan yang mengatakan kepada siswa mereka untuk menggunakan regresi linier jika hasilnya berkelanjutan. Jika biner, gunakan regresi logis! Namun, semakin banyak pilihan yang tersedia dalam proses kami, semakin sulit untuk memilih yang benar.

      Dalam model regresi multi-kategori, memilih teknik yang paling tepat sangat penting berdasarkan jenis variabel dan faktor variabel, dimensi data, dan karakteristik dasar lainnya dari data. Berikut adalah faktor-faktor kunci untuk memilih model regresi yang tepat:

      Eksplorasi data adalah bagian yang pasti dari membangun model prediksi. Ini harus menjadi langkah utama dalam memilih model yang tepat, seperti mengidentifikasi hubungan dan pengaruh variabel.

      Keunggulan dari model yang berbeda adalah bahwa kita dapat menganalisis parameter indikator yang berbeda, seperti parameter yang signifikan secara statistik, R-square, Adjusted R-square, AIC, BIC, dan parameter kesalahan, yang lain adalah Mallows Cube Cp. Ini terutama dilakukan dengan membandingkan model dengan semua submodel yang mungkin (atau memilihnya dengan hati-hati) untuk memeriksa kemungkinan penyimpangan dalam model Anda.

      Cross-validasi adalah metode terbaik untuk menilai model prediksi. Di sini, pisahkan dataset Anda menjadi dua bagian (satu untuk latihan dan satu untuk verifikasi). Gunakan selisih rata sederhana antara nilai observasi dan nilai prediksi untuk mengukur akurasi prediksi Anda.

      Jika dataset Anda adalah beberapa variabel campuran, maka Anda tidak harus memilih metode pemilihan model otomatis, karena Anda seharusnya tidak ingin memasukkan semua variabel ke dalam model yang sama pada saat yang sama.

      Ini juga akan tergantung pada tujuan Anda. Mungkin ada situasi di mana model yang kurang kuat lebih mudah dilakukan daripada model yang memiliki arti statistik yang tinggi.

      Metode regulasi regresi (Lasso, Ridge, dan ElasticNet) bekerja dengan baik dalam kondisi multi-symlinearitas antara variabel dataset dan dimensi tinggi.

Diunduh dari CSDN


Lebih banyak