Pengurut Bayesian berdasarkan algoritma KNN

Penulis:Mimpi kecil, Dicipta: 2017-01-14 17:23:19, Dikemas kini:

Pengurut Bayesian berdasarkan algoritma KNN

Dasar-dasar teori untuk merancang pemeringkat untuk membuat keputusan pemeringkat:

Perbandingan P (ωi) x; di manaωi adalah kelas i, dan x adalah data yang harus diamati dan diklasifikasikan, P (ωi) x menyatakan berapa kemungkinan untuk menentukan bahawa data ini adalah kelas i dalam keadaan vektor ciri yang diketahui, yang juga menjadi kebarangkalian eksplorasi. Menurut rumus Bayesian, ia boleh dinyatakan sebagai:

img

Di antaranya, P (x) disebut kemungkinan kemiripan atau kemungkinan keadaan kelas; P (ω) dipanggil kemungkinan pendahuluan kerana tidak berkaitan dengan ujian dan boleh diketahui sebelum ujian.

Dalam klasifikasi, jika x diberikan, pilihlah kategori yang mempunyai kemungkinan paling besar untuk P (ωi dalam x); apabila P (ωi dalam x) besar di bawah setiap kategori,ωi adalah pembolehubah dan x adalah tetap; jadi P (ωi dalam x) boleh dihapuskan dan tidak dipertimbangkan.

Oleh itu, masalah ini akhirnya dikurangkan kepada masalah pengiraan P (x) = P (ωi). Kemungkinan awal P (ωi) adalah baik, jika latihan statistik mengumpul peratusan data yang muncul di bawah setiap klasifikasi.

Perkiraan kebarangkalian yang serupa P (x i) adalah perlu kerana x adalah data dalam kumpulan ujian dan tidak boleh diperoleh secara langsung berdasarkan kumpulan latihan. Maka kita perlu mencari undang-undang pembahagian data kumpulan latihan untuk mendapatkan P (x i).

Di bawah ini adalah pengenalan k algoritma jiran, dalam bahasa Inggeris adalah KNN.

Kita perlu menyesuaikan pembahagian data ini di bawah kategoriωi berdasarkan data x1, x2...xn dalam kumpulan latihan (setiap data adalah m dimensi). Jika x adalah mana-mana titik dalam ruang m dimensi, bagaimana untuk mengira P ((xωi)?

Kita tahu bahawa apabila jumlah data cukup besar, kita boleh menggunakan perbandingan perbandingan kira-kira. Menggunakan prinsip ini, mencari k titik sampel yang paling dekat dengan jarak titik x, di mana terdapat ki yang tergolong dalam kategori i. Menghitung jumlah volume V super bola terkecil yang dikelilingi oleh titik sampel k ini; atau mencari bilangan individu yang tergolong dalam kategori Ωi dalam semua data sampel Ni:

img

Anda boleh lihat bahawa apa yang kita perolehi sebenarnya adalah ketumpatan kebarangkalian keadaan kelas di titik x.

Jadi, bagaimana dengan P (ωi)? Menurut kaedah di atas, P ((ωi) = Ni/N. Di mana N adalah jumlah sampel. Di samping itu, P ((x) = k/ ((N*V), di mana k adalah bilangan semua titik sampel yang dikelilingi oleh superbenda ini; N adalah jumlah sampel. Jika anda menggunakan formula ini, maka anda boleh mengira:

P(ωi|x)=ki/k

Untuk menerangkan formula di atas, dalam sebuah super bola bersaiz V, kita mengelilingi k sampel, di mana terdapat ki yang tergolong dalam kelas i. Dengan cara ini, kita menentukan jenis sampel yang paling banyak dikelilingi, dan kita menentukan kelas mana yang harus dimiliki oleh x di sini. Ini adalah pengelasan yang direka dengan algoritma k berdekatan.


Lebih lanjut