avatar of 发明者量化-小小梦 发明者量化-小小梦
fokus pada Pesan pribadi
4
fokus pada
1271
Pengikut

Istilah umum terkait pembelajaran mesin dan penambangan data

Dibuat di: 2017-03-20 09:58:22, diperbarui pada:
comments   0
hits   2015

Istilah umum terkait pembelajaran mesin dan penambangan data

  • Sampling:

    • Simple Random Sampling (SRS) adalah metode yang digunakan untuk mengamati sampel secara acak.
    • OfflineSampling (Offline Sampling, mungkin K)
    • Online Sampling (Kemungkinan Sampling Online dan lain-lain)
    • Ratio-based Sampling (RBSS) adalah metode pengambilan sampel secara acak berdasarkan rasio.
    • Acceptance-RejectionSampling (Sampling Penerimaan dan Penolakan)
    • Importance Sampling (Pembuatan Sampling Penting)
    • MCMC ((MarkovChain Monte Carlo: Metropolis-Hasting & Gibbs))
  • Clustering (mengelompokkan):

    • K-Means,
    • K-Mediods,
    • K-Means, yang berarti dua kali lipat.
    • FK-Means,
    • Canopy,
    • “Saya tidak tahu apa-apa tentang itu”, katanya.
    • GMM-EM (Gauch model campuran - diharapkan algoritma maksimalisasi untuk memecahkannya)
    • K-Pototypes, CLARANS (berdasarkan pembagian),
    • BIRCH (berdasarkan hierarki),
    • CURE (berdasarkan hierarki)
    • DBSCAN (berdasarkan kepadatan)
    • CLIQUE ((Berdasarkan kepadatan dan berdasarkan grid)
  • Classification&Regression: Mengidentifikasi dan Menggambar

    • LR (Linear Regression) adalah metode regressi linear yang digunakan untuk memaksimalkan nilai-nilai regressi linear.
    • LR (Logistic Regression) adalah sebuah metode regressi logis yang digunakan untuk mendeskripsikan suatu proses.
    • SR (Softmax Regression)
    • GLM (Generalized Linear Model) adalah model linier yang umum digunakan di Indonesia.
    • RR ((Ridge Regression) Regressi Titik/L2 Regressi Minimal Dua Kali Regressi)
    • LASSO ((Least Absolute Shrinkage andSelectionator Operator L1 Regression ke Dua dengan Regressi Minimal)
    • RF (Hutan Tak Terduga)
    • DT: Apakah Anda tahu apa yang saya maksud dengan “Decision Tree”?
    • GBDT (Gradient BoostingDecision Tree) adalah sebuah proyek yang bertujuan untuk meningkatkan pengetahuan dan keterampilan para pengguna tentang teknologi informasi.
    • CART (Classification And Regression Tree) adalah sebuah sistem klasifikasi dan regresi yang digunakan untuk mendeskripsikan sebuah spesies.
    • “K-Nearest Neighbor K” adalah sebuah video yang diunggah di YouTube milik seorang warga negara Indonesia.
    • SVM(Support VectorMachine),
    • KF ((KernelFunction Fungsi kernel PolynomialFungsi kernel fungsi polinomial,
    • Guassian KernelFunction Guassian KernelFunction/Radial BasisFunction RBF
    • String KernelFunction (Fungsi Kernel String)
    • NB ((Naive Bayes),BN ((Bayesian Network/Bayesian Belief Network/ Belief Network),
    • LDA ((Linear Discriminant Analysis/FisherLinear Discriminant) adalah sebuah metode analisis linear yang digunakan untuk menentukan perbedaan antara dua jenis analisis linear.
    • “Ensemble Learning” adalah integrasi dari Boosting, Bagging, dan Stacking.
    • Adaptive Boosting (pengembangan adaptif)
    • MEM (Maximum Entropy Model)
  • Efektivitas Evaluasi:

    • Confusion Matrix (Matriks Kebingungan)
    • Precision (keakuratan), Recall (perkiraan), dan lain-lain.
    • Accuracy (akurasi), F-score (skor F),
    • ROC Curve, AUC, dan area AUC.
    • LiftCurve, KS Curve
  • PGM (Probabilistic Graphical Models):

    • BN ((Bayesian Network/Bayesian Belief Network/BeliefNetwork) adalah sebuah jaringan yang terdiri dari dua kelompok, yaitu kelompok kepercayaan dan kelompok kepercayaan.
    • “Saya tidak tahu apa-apa tentang itu, tapi saya pikir itu adalah salah satu dari beberapa hal yang paling penting yang harus dilakukan.
    • HMM (HiddenMarkov Model) adalah sebuah model hiding yang dibuat oleh seorang ilmuwan Rusia bernama Rudyard Kipling.
    • MEMM (Maximum Entropy Markov Model) adalah model yang digunakan untuk mengukur entropy dari suatu benda.
    • CRF (Conditional Random Field) adalah sebuah lapangan terbang acak dengan kondisi tertentu.
    • MRF (Markov Random Field)
  • NN (jaringan saraf):

    • ANN (Artificial Neural Network) adalah sebuah jaringan saraf buatan yang dibuat oleh orang-orang dari seluruh dunia.
    • BP ((Error BackPropagation)
  • DeepLearning

    • Auto-encoder (pengkode otomatis),
    • SAE (Stacked Auto-encoders) adalah stack auto-encoder yang digunakan untuk mengencodekan data.
    • Sparse Auto-encoders adalah pengenkodekan otomatis.
    • Denoising Auto-encoders adalah pengenkodekan otomatis untuk menghilangkan kebisingan.
    • Contractive Auto-encoders adalah pengenkodekan otomatis kontraktif.
    • RBM (Restricted Boltzmann Machine) adalah sebuah mesin berteknologi tinggi yang digunakan untuk menghasilkan tenaga listrik.
    • DBN (Deep Belief Network) adalah sebuah jaringan yang berbasis di Indonesia.
    • CNN (ConvolutionalNeural Network) adalah sebuah jaringan saraf konvolusional yang dibangun di Amerika Serikat.
    • Word2Vec (Model Pembelajaran Vektor Kata)
  • DimensionalityReduction (pengurangan dimensi):

    • LDA LinearDiscriminant Analysis/Fisher Linear Discriminant adalah metode analisis linear yang digunakan untuk menentukan perbedaan yang terjadi pada suatu objek.
    • PCA (Principal Component Analysis) adalah analisis komponen utama.
    • ICA (Independent Component Analysis) adalah sebuah lembaga penelitian yang berbasis di Singapura.
    • SVD (Singular Value Decomposition) adalah suatu bentuk dari SVD.
    • FA ((FactorAnalysis Analisis faktor) }}
  • Text Mining (penggalian teks):

    • VSM (Vector Space Model) adalah model ruang vektor.
    • Word2Vec (Model Pembelajaran Vektor Kata)
    • Terjemahan Bahasa Indonesia:
    • TF-IDF ((Term Frequency-Inverse DocumentFrequency) adalah istilah yang digunakan untuk mengacu pada frekuensi dokumen terbalik.
    • MI (MutualInformation) adalah sebuah situs web yang berisi informasi tentang Indonesia.
    • ECE (Expected Cross Entropy) adalah sebuah metode yang digunakan untuk mengevaluasi entropy dari suatu entitas.
    • QEMI (Kotak Informasi Sekunder)
    • IG ((InformationGain) adalah sebuah situs web yang berisi informasi tentang teknologi informasi.
    • IGR (Information Gain Ratio) adalah rasio keuntungan informasi yang lebih tinggi dibandingkan dengan rasio keuntungan informasi yang lebih rendah.
    • Gini adalah sebuah angka yang sangat besar.
    • x2 Statistic, x2 Statistik, x2 Statistik, x2 Statistik, x2 Statistik, x2 Statistik, x2 Statistik
    • TEW (TextEvidence Weight) adalah sebuah organisasi yang berbasis di Indonesia yang bergerak di bidang teks.
    • OR (Odds Ratio)
    • N-Gram Model,
    • LSA (Latent Semantic Analysis) adalah bahasa pemrograman bahasa Inggris yang digunakan untuk membuat kata-kata dalam bahasa Inggris.
    • PLSA (Probabilistic Latent Semantic Analysis) adalah analisis semantik laten berdasarkan probabilitas.
    • LDA (Latent Dirichlet Allocation)
  • Association Mining (penggalian terkait):

    • Apriori,
    • FP-growth (Frequency Pattern Tree Growth) adalah algoritma pertumbuhan pohon dengan pola frekuensi.
    • AprioriAll,
    • Spade。
  • Recommendation Engine (mesin rekomendasi):

    • DBR (Demographic-based Recommendation) adalah sebuah rekomendasi berbasis demografi yang dibuat oleh DBR, sebuah organisasi non-pemerintah yang berbasis di Indonesia.
    • CBR (Context-basedRecommendation) adalah sebuah rekomendasi berbasis konteks yang dibuat oleh sebuah organisasi yang berbasis di Indonesia.
    • CF (Collaborative Filtering) adalah sebuah aplikasi yang dibuat oleh Google untuk memfilter dan membagikan konten video.
    • UCF (User-based Collaborative Filtering Recommendation) adalah sebuah rekomendasi yang dibuat oleh Google untuk membuat filter kolaboratif berbasis pengguna.
    • ICF (Item-based Collaborative Filtering Recommendation) adalah sebuah rekomendasi untuk memfilter kolaboratif berdasarkan item.
  • Similarity Measure & Distance Measure (pengukuran kesamaan dan jarak):

    • Jarak Euclidean
    • ManhattanDistance, sebuah blog yang dipublikasikan di New York Times, menuliskan:
    • Dalam video yang diunggah di Twitter, Chebyshev Distance, seorang wanita yang tinggal di Chebyshev, Rusia, menulis:
    • MinkowskiDistance (Jarak Minkowski) adalah jarak antara dua kota di Rusia.
    • Standardized Euclidean Distance (StD) adalah jarak standar yang digunakan untuk menentukan jarak dari suatu objek ke objek lainnya.
    • Ini adalah salah satu dari beberapa foto yang diunggah di Twitter.
    • Cos ((Cosine) adalah sebuah irama yang terdiri dari dua irama.
    • HammingDistance/Edit Distance (dalam bahasa Inggris), Hamming Distance/Edit Distance (dalam bahasa Inggris), Hamming Distance/Edit Distance (dalam bahasa Inggris), Hamming Distance/Edit Distance
    • JaccardDistance (Jarak Jaccard) adalah sebuah blog yang dibuat oleh seorang blogger asal Inggris, yang menuliskan sebuah artikel di blognya, Jaccard.
    • Correlation Coefficient Distance (Distansi Koefisien Korelasi)
    • Informasi Entropy (Information Entropy) adalah sebuah blog yang dibuat oleh seorang blogger.
    • KL ((Kullback-Leibler Divergence KL dispersi/Relative Entropy relatif rendah)
  • Feature Selection (Algoritma Pemilihan Fitur):

    • Informasi Saling (Mutual Information)
    • DocumentFrequence (frekuensi dokumen)
    • Informasi Gain (Information Gain)
    • Tes Chi-squared (tes kuadrat)
    • Gini (koefisien Gini)
  • Outlier Detection (Algoritma deteksi titik-titik yang tidak normal):

    • Menurutnya, hal itu bisa menjadi bukti bahwa Indonesia masih memiliki potensi untuk menjadi negara maju.
    • Distance-based (berdasarkan jarak)
    • Density-based (berdasarkan kepadatan),
    • Clustering-based (berdasarkan pengelompokan).
  • Learning to Rank (berdasarkan pembelajaran):

    • Pointwise:McRank;
    • Pairwise:RankingSVM,RankNet,Frank,RankBoost;
    • Listwise:AdaRank,SoftRank,LamdaMART。