Perjalanan Algoritma Pembelajaran Mesin

Penulis:Mimpi kecil, Dicipta: 2017-02-25 09:37:02, Dikemas kini:

Perjalanan Algoritma Pembelajaran Mesin

Dalam memahami masalah pembelajaran mesin yang perlu kita selesaikan.http://machinelearningmastery.com/practical-machine-learning-problems/Selepas itu, kita boleh berfikir tentang apa data yang kita perlukan untuk dikumpulkan dan apa algoritma yang boleh kita gunakan. Dalam artikel ini, kita akan melihat algoritma pembelajaran mesin yang paling popular dan melihat secara kasar apa yang boleh digunakan dan sangat membantu. Terdapat banyak algoritma dalam bidang pembelajaran mesin, dan setiap algoritma mempunyai banyak ekstensi, jadi sukar untuk menentukan algoritma yang betul untuk masalah tertentu. Dalam artikel ini, saya ingin memberi anda dua kaedah untuk meringkaskan algoritma yang akan dihadapi dalam kehidupan sebenar.

  • Kaedah pembelajaran

    Algoritma dikategorikan kepada pelbagai jenis berdasarkan bagaimana mereka memproses pengalaman, persekitaran atau apa sahaja data yang kita sebut sebagai input.

    Hanya beberapa gaya pembelajaran atau model pembelajaran utama yang dibincangkan di sini, dan beberapa contoh asas. Pendekatan pengelompokan atau organisasi ini baik kerana ia memaksa anda untuk memikirkan peranan dan proses penyediaan model untuk memasukkan data dan kemudian memilih algoritma yang paling sesuai dengan masalah anda untuk mendapatkan hasil yang terbaik.

    Pembelajaran pengawasan: data yang dimasukkan dipanggil data latihan, dan mempunyai hasil yang diketahui atau ditandakan. Contohnya, sama ada e-mel adalah spam, atau harga saham dalam tempoh masa. Model membuat ramalan, dan jika salah, ia akan diperbetulkan. Proses ini berterusan sehingga ia mencapai beberapa standard yang betul untuk data latihan. Pembelajaran tanpa pengawasan: data input tidak ditandakan dan tidak mempunyai hasil yang pasti. Model mengindikasikan struktur dan nilai-nilai data. Contoh masalah termasuk pembelajaran peraturan persatuan dan masalah pengelompokan, contoh algoritma termasuk algoritma Apriori dan algoritma nilai purata K. Pembelajaran separa pengawasan: data input adalah campuran data yang ditandakan dan tidak ditandakan, terdapat beberapa masalah ramalan tetapi model juga perlu mempelajari struktur dan komposisi data. Contoh masalah termasuk masalah pengelasan dan regresi, contoh algoritma pada dasarnya merupakan lanjutan algoritma pembelajaran tanpa pengawasan. Pembelajaran yang dipertingkatkan: data input boleh merangsang model dan membuat model bertindak balas. Maklumat maklum balas tidak hanya diperoleh daripada proses pembelajaran pengawasan pembelajaran, tetapi juga daripada ganjaran atau hukuman dalam persekitaran. Contoh masalah adalah kawalan robot, contoh algoritma termasuk Q-learning dan pembelajaran perbezaan temporal.

    Apabila mengintegrasikan data untuk membuat keputusan perniagaan, kebanyakan menggunakan kaedah pembelajaran pengawasan dan pembelajaran tanpa pengawasan. Topik terkini adalah pembelajaran separa pengawasan, seperti masalah klasifikasi imej, yang mempunyai pangkalan data yang besar, tetapi hanya sebahagian kecil imej yang ditandakan. Pembelajaran dipertingkatkan juga digunakan dalam pembangunan kawalan robot dan sistem kawalan lain.

  • Kesamaan algoritma

    Algoritma pada dasarnya dikategorikan berdasarkan fungsi atau bentuknya. Contohnya, algoritma berasaskan pokok, algoritma rangkaian saraf. Ini adalah satu cara yang berguna untuk dikategorikan, tetapi tidak sempurna. Oleh kerana terdapat banyak algoritma yang boleh dikategorikan dengan mudah ke dalam dua kategori, seperti pembelajaran vektor kuantifikasi yang merupakan algoritma kelas rangkaian saraf dan kaedah berasaskan contoh.

    Dalam bahagian ini saya menyenaraikan algoritma yang saya anggap sebagai kaedah yang paling intuitif untuk mengklasifikasikan. Saya tidak mempunyai semua algoritma atau kaedah klasifikasi, tetapi saya fikir ia sangat membantu untuk memberi pembaca gambaran keseluruhan.

  • Kemunduran

    Analisis regresi adalah mengenai hubungan antara pembolehubah. Ia menggunakan kaedah statistik, contoh beberapa algoritma termasuk:

    Kuadrat Kecil Biasa Kemunduran Logistik Kemunduran Peringkat Splines Regresi Adaptif Multivariate (MARS) Penghalusan Scatterplot yang Dianggarkan Secara Lokal (LOESS)

  • Kaedah berasaskan contoh

    Pembelajaran berasaskan contoh adalah simulasi masalah keputusan, contoh atau contoh yang digunakan sangat penting untuk model. Pendekatan ini membina pangkalan data data yang ada dan menambah data baru, kemudian menggunakan kaedah pengukuran kemiripan untuk mencari pencocokan terbaik dalam pangkalan data dan membuat ramalan. Oleh itu, kaedah ini juga dikenali sebagai kaedah pemenang raja dan kaedah berasaskan memori.

    k - Jiran terdekat (kNN) Pembelajaran Kuantisasi Vektor (LVQ) Peta Penyelenggaraan Sendiri (SOM)

  • Kaedah Peraturan

    Ini adalah satu lanjutan kepada kaedah lain (biasanya kaedah regresi) yang lebih baik untuk model yang lebih mudah dan lebih baik untuk mengindikasikan. Saya menyenaraikannya di sini kerana popular dan kuat.

    Regresi Ridge Operator Penyusutan dan Pemilihan Absolut Minimum (LASSO) Jaring Elastik

  • Pembelajaran Pokok Keputusan

    Kaedah pokok keputusan membina model keputusan berdasarkan nilai sebenar dalam data. Pokok keputusan digunakan untuk menyelesaikan masalah induksi dan regresi.

    Klasifikasi dan Pokok Regresi (CART) Iteratif Dikotomiser 3 (ID3) C4.5 Pengesanan interaksi automatik Chi-kuadrat (CHAID) Stump Keputusan Hutan Rancuran Splines Regresi Adaptif Multivariate (MARS) Mesin Peningkatan Gradient (GBM)

  • Bayesian

    Kaedah Bayesian menggunakan kaedah teorema Bayesian dalam menyelesaikan masalah klasifikasi dan regresi.

    Bayes yang Naif Perkiraan purata satu-ketergantungan (AODE) Rangkaian Kepercayaan Bayesian (BBN)

  • Kaedah Kernel

    Kaedah Kernel yang paling terkenal ialah Support Vector Machines. Kaedah ini memetakan data input ke dimensi yang lebih tinggi, yang memudahkan pemodelan beberapa masalah klasifikasi dan regresi.

    Mesin Vektor Sokongan (SVM) Fungsi Asas Radial (RBF) Analisis Diskriminasi Linear (LDA)

  • Kaedah Pengumpulan

    Pengelompokan (clustering), sendiri menggambarkan masalah dan kaedah. Kaedah pengelompokan biasanya dikategorikan oleh cara pemodelan. Semua kaedah pengelompokan mengatur data dengan struktur data yang seragam, sehingga setiap kumpulan mempunyai kesamaan yang paling banyak.

    K-Rata-rata Peningkatan jangkaan (EM)

  • Pembelajaran Peraturan Persatuan

    Pembelajaran peraturan persatuan (Association rule learning) adalah satu kaedah yang digunakan untuk mendapatkan undang-undang antara data, yang membolehkan hubungan antara data ruang pelbagai dimensi yang besar dijumpai, dan hubungan penting ini boleh digunakan oleh organisasi.

    Algoritma Apriori Algoritma Eclat

  • Rangkaian saraf buatan

    Rangkaian saraf buatan (AI) diilhamkan dari struktur dan fungsi rangkaian saraf biologi. Ia termasuk dalam kategori pencocokan corak yang sering digunakan untuk masalah regresi dan klasifikasi, tetapi terdapat beratus-ratus algoritma dan komposisi variasi. Beberapa daripada mereka adalah algoritma klasik yang popular (saya mengambil pembelajaran mendalam secara berasingan):

    Perceptron Penyebaran Kembali Rangkaian Hopfield Peta Penyelenggaraan Sendiri (SOM) Pembelajaran Kuantisasi Vektor (LVQ)

  • Pembelajaran mendalam

    Kaedah pembelajaran mendalam (dalam bahasa Inggeris: deep learning) adalah satu pembaharuan moden terhadap rangkaian saraf buatan. Ia mempunyai lebih banyak struktur rangkaian yang lebih kompleks berbanding rangkaian saraf tradisional, dan banyak kaedah yang berkaitan dengan pembelajaran semisupervised. Masalah pembelajaran ini mempunyai banyak data, tetapi sedikit yang ditandakan.

    Mesin Boltzmann Terhad (RBM) Rangkaian Kepercayaan mendalam (DBN) Rangkaian Convolutional Pengekod Otomatis yang ditumpuk

  • Pengurangan Dimensi

    Pengurangan Dimensionaliti (dimensionality reduction), seperti kaedah pengumpulan, mengamalkan dan menggunakan struktur yang seragam dalam data, tetapi ia menggunakan lebih sedikit maklumat untuk mengindikasikan dan menggambarkan data. Ini berguna untuk memvisualisasikan atau menyederhanakan data.

    Analisis Komponen Utama (PCA) Kemunduran Kuadrat Kecil (PLS) Pemetaan Sammon Pengukuran Multidimensional (MDS) Percubaan Projeksi

  • Menggabungkan Kaedah

    Ensemble methods (cara gabungan) terdiri daripada banyak model kecil yang telah dilatih secara bebas, membuat kesimpulan secara bebas, dan akhirnya membentuk ramalan keseluruhan. Banyak kajian memberi tumpuan kepada apa model yang digunakan dan bagaimana model-model ini digabungkan.

    Meningkatkan Pengumpulan Bootstrapped (Bagging) AdaBoost Generalisasi yang ditumpuk (pencampuran) Mesin Peningkatan Gradient (GBM) Hutan Rancuran

img

Ini adalah satu contoh yang disesuaikan dengan kaedah gabungan (dari wiki), setiap kaedah kebakaran ditunjukkan dalam warna kelabu, dan ramalan akhir yang disusun akhirnya adalah merah.

  • Sumber lain

    Lawatan ini bertujuan untuk memberi anda gambaran keseluruhan tentang algoritma dan alat yang berkaitan dengan algoritma.

    Berikut adalah beberapa sumber lain, jangan terlalu banyak, lebih baik anda mengetahui lebih banyak algoritma, tetapi pengetahuan yang mendalam tentang beberapa algoritma juga berguna.

    • Senarai Algoritma Pembelajaran Mesin: Ini adalah sumber di wiki, walaupun lengkap, tetapi saya fikir pengelompokan tidak baik.
    • Kategori Algoritma Pembelajaran Mesin: Ini juga sumber di wiki, sedikit lebih baik daripada di atas, diurutkan secara abjad.
    • CRAN Task View: Machine Learning & Statistical Learning: R Language Extension Kit untuk algoritma pembelajaran mesin, lihat untuk memahami apa yang digunakan orang lain dengan lebih baik.
    • Top 10 Algorithms in Data Mining: Ini adalah artikel yang diterbitkan, kini buku, yang merangkumi algoritma perlombongan data yang paling popular.

Dibaharui oleh: Bello Column/Developer Python


Lebih lanjut