Saya pernah mengikuti sebuah wawancara lama lalu, dan judulnya mengingatkan saya kembali.
Interviewer: Apakah Anda tahu tentang Logistic Regression? Saya: Tentu saja saya tahu, itu sering digunakan. Interviewer: Lalu bagaimana menurut Anda probabilitas dari prediksi regression logistic dapat diartikan sebagai probabilitas keberhasilan seseorang? Saya: Tentu saja tidak. Jika hanya ada satu pengamatan, probabilitas individu tidak dapat diestimasi. Ini harus diartikan sebagai, dengan N individu yang memiliki karakteristik yang sama, rasio keberhasilan sama dengan probabilitas yang diestimasi.
Ya, saya tidak bisa mendapatkan jawaban yang pasti, dan tentu saja, akhirnya saya tersingkir (mungkin karena latar belakang saya di bidang ekonomi, bukan di bidang statistik dan komputer).
Mungkin Anda merasa bahwa saya mengatakan sesuatu yang agak kontroversial atau sulit untuk dipahami, ketika kita memperkirakan logistic return, kita memperkirakan bahwa

Bukankah itu harus diartikan sebagai probabilitas keberhasilan individu?
Ketika kita berbicara tentang probabilitas keberhasilan seseorang secara individu, seharusnya orang yang sama dalam kondisi yang sama berulang 100 kali, berapa kali rata-rata berhasil. Jika kita mencatat t sebagai jumlah kali seseorang mencoba, maka model ideal kita (proses pembuatan data) harus seperti ini:

Namun, secara alternatif, proses pembuatan data realistis mungkin seperti ini:

