Sebagai orang yang sering menerangkan pembelajaran mesin kepada orang awam, saya menyenaraikan sepuluh perkara berikut sebagai beberapa penjelasan mengenai pembelajaran mesin:
Pembelajaran mesin tidak seperti yang diiklankan: anda boleh menyelesaikan banyak masalah dengan memberikan data latihan yang sesuai kepada algoritma pembelajaran yang betul. Panggil ia AI jika ia membantu menjual sistem AI anda. Tetapi anda perlu tahu, AI hanyalah perkataan yang bergaya, yang hanya mewakili harapan orang terhadapnya.
Terdapat banyak perkara yang menarik mengenai kemajuan algoritma pembelajaran mesin, terutamanya pembelajaran mendalam. Tetapi data adalah faktor utama yang membolehkan pembelajaran mesin. Pembelajaran mesin boleh dilakukan tanpa algoritma yang rumit, tetapi tidak tanpa data yang baik.
Pembelajaran mesin melatih model berdasarkan corak dalam data, meneroka ruang model mungkin yang ditakrifkan oleh parameter. Jika ruang parameter terlalu besar, ia akan terlalu sesuai dengan data latihan, dan melatih model yang tidak dapat menggeneralisasikan dirinya sendiri. Jika anda ingin menjelaskan ini secara terperinci, anda perlu melakukan lebih banyak pengiraan matematik, dan anda harus menganggapnya sebagai panduan untuk menjadikan model anda semudah mungkin.
Ada pepatah yang mengatakan bahawa anda memasukkan banyak sampah ke komputer, dan outputnya pasti akan menjadi banyak sampah data, walaupun ungkapan ini muncul lebih awal daripada pembelajaran mesin, tetapi ini adalah batasan utama pembelajaran mesin. Pembelajaran mesin hanya dapat mencari corak yang terdapat dalam data latihan. Untuk memantau tugas pembelajaran mesin, misalnya, anda memerlukan set data latihan yang kuat, dilabel dengan betul, dan kaya.
Sebagai amaran dalam prospektus dana, prestasi masa lalu tidak menjamin hasil masa depan. Pembelajaran mesin harus mengeluarkan peringatan yang sama: ia hanya boleh bekerja berdasarkan data yang diedarkan dengan data latihan. Oleh itu, berhati-hatilah terhadap penyimpangan antara data latihan dan data pengeluaran, dan ulangi model latihan secara berkala untuk memastikan ia tidak menjadi ketinggalan zaman.
Dengan iklan yang berleluasa mengenai teknologi pembelajaran mesin, anda mungkin berfikir bahawa apa yang dilakukan oleh pembelajaran mesin adalah memilih dan menyesuaikan algoritma. Tetapi kenyataannya adalah tidak menarik: sebahagian besar masa dan tenaga anda akan dibelanjakan untuk membersihkan data dan merekayasa ciri, iaitu mengubah ciri asal menjadi ciri yang lebih baik untuk mewakili data.
Pembelajaran mendalam juga telah dipromosikan dengan baik kerana banyak aplikasi dan pembangunan pembelajaran mesin di banyak bidang. Di samping itu, pembelajaran mendalam mendorong beberapa kerja yang secara tradisional dilakukan melalui kejuruteraan ciri untuk menjadi automatik, terutamanya untuk data imej dan video. Tetapi pembelajaran mendalam bukanlah ubat yang baik.
Permohonan maaf kepada NRA, kerana algoritma pembelajaran mesin tidak membunuh, tetapi membunuh manusia. Apabila sistem pembelajaran mesin gagal, ia jarang berlaku kerana algoritma pembelajaran mesin mempunyai masalah. Ia lebih mungkin bahawa kesilapan buatan manusia telah diperkenalkan ke dalam data latihan, yang menghasilkan penyimpangan atau kesilapan sistem lain.
Dalam banyak aplikasi pembelajaran mesin, keputusan yang anda buat hari ini akan mempengaruhi data latihan yang dikumpulkan esok. Sebaik sahaja sistem pembelajaran mesin memasukkan bias ke dalam model, ia boleh terus menghasilkan data latihan baru yang dipertingkatkan oleh bias.
Ramai orang nampaknya mendapat idea tentang kecerdasan buatan dari filem sains. Kita harus mendapat inspirasi dari fiksyen sains, tetapi tidak boleh begitu bodoh, salah anggap fiksyen sebagai realiti. Dari manusia jahat yang sedar kepada model pembelajaran mesin yang tidak sedar, ada terlalu banyak realiti dan bahaya yang perlu dibimbangkan.
Maklumat mengenai pembelajaran mesin jauh lebih banyak daripada 10 perkara yang saya sebutkan di atas. Saya harap maklumat ini berguna untuk orang awam.
Dikutip dari Global Artificial Intelligence Big Data Land