Istilah umum terkait pembelajaran mesin dan penambangan data
Istilah umum terkait pembelajaran mesin dan penambangan data
Dibuat di: 2017-03-20 09:58:22,
diperbarui pada:
0
2015
Istilah umum terkait pembelajaran mesin dan penambangan data
Sampling:
Simple Random Sampling (SRS) adalah metode yang digunakan untuk mengamati sampel secara acak.
OfflineSampling (Offline Sampling, mungkin K)
Online Sampling (Kemungkinan Sampling Online dan lain-lain)
Ratio-based Sampling (RBSS) adalah metode pengambilan sampel secara acak berdasarkan rasio.
Acceptance-RejectionSampling (Sampling Penerimaan dan Penolakan)
Importance Sampling (Pembuatan Sampling Penting)
MCMC ((MarkovChain Monte Carlo: Metropolis-Hasting & Gibbs))
Clustering (mengelompokkan):
K-Means,
K-Mediods,
K-Means, yang berarti dua kali lipat.
FK-Means,
Canopy,
“Saya tidak tahu apa-apa tentang itu”, katanya.
GMM-EM (Gauch model campuran - diharapkan algoritma maksimalisasi untuk memecahkannya)
K-Pototypes, CLARANS (berdasarkan pembagian),
BIRCH (berdasarkan hierarki),
CURE (berdasarkan hierarki)
DBSCAN (berdasarkan kepadatan)
CLIQUE ((Berdasarkan kepadatan dan berdasarkan grid)
Classification&Regression: Mengidentifikasi dan Menggambar
LR (Linear Regression) adalah metode regressi linear yang digunakan untuk memaksimalkan nilai-nilai regressi linear.
LR (Logistic Regression) adalah sebuah metode regressi logis yang digunakan untuk mendeskripsikan suatu proses.
SR (Softmax Regression)
GLM (Generalized Linear Model) adalah model linier yang umum digunakan di Indonesia.
RR ((Ridge Regression) Regressi Titik/L2 Regressi Minimal Dua Kali Regressi)
LASSO ((Least Absolute Shrinkage andSelectionator Operator L1 Regression ke Dua dengan Regressi Minimal)
RF (Hutan Tak Terduga)
DT: Apakah Anda tahu apa yang saya maksud dengan “Decision Tree”?
GBDT (Gradient BoostingDecision Tree) adalah sebuah proyek yang bertujuan untuk meningkatkan pengetahuan dan keterampilan para pengguna tentang teknologi informasi.
CART (Classification And Regression Tree) adalah sebuah sistem klasifikasi dan regresi yang digunakan untuk mendeskripsikan sebuah spesies.
“K-Nearest Neighbor K” adalah sebuah video yang diunggah di YouTube milik seorang warga negara Indonesia.
SVM(Support VectorMachine),
KF ((KernelFunction Fungsi kernel PolynomialFungsi kernel fungsi polinomial,
NB ((Naive Bayes),BN ((Bayesian Network/Bayesian Belief Network/ Belief Network),
LDA ((Linear Discriminant Analysis/FisherLinear Discriminant) adalah sebuah metode analisis linear yang digunakan untuk menentukan perbedaan antara dua jenis analisis linear.
“Ensemble Learning” adalah integrasi dari Boosting, Bagging, dan Stacking.
Adaptive Boosting (pengembangan adaptif)
MEM (Maximum Entropy Model)
Efektivitas Evaluasi:
Confusion Matrix (Matriks Kebingungan)
Precision (keakuratan), Recall (perkiraan), dan lain-lain.
Accuracy (akurasi), F-score (skor F),
ROC Curve, AUC, dan area AUC.
LiftCurve, KS Curve
PGM (Probabilistic Graphical Models):
BN ((Bayesian Network/Bayesian Belief Network/BeliefNetwork) adalah sebuah jaringan yang terdiri dari dua kelompok, yaitu kelompok kepercayaan dan kelompok kepercayaan.
“Saya tidak tahu apa-apa tentang itu, tapi saya pikir itu adalah salah satu dari beberapa hal yang paling penting yang harus dilakukan.
HMM (HiddenMarkov Model) adalah sebuah model hiding yang dibuat oleh seorang ilmuwan Rusia bernama Rudyard Kipling.
MEMM (Maximum Entropy Markov Model) adalah model yang digunakan untuk mengukur entropy dari suatu benda.
CRF (Conditional Random Field) adalah sebuah lapangan terbang acak dengan kondisi tertentu.
MRF (Markov Random Field)
NN (jaringan saraf):
ANN (Artificial Neural Network) adalah sebuah jaringan saraf buatan yang dibuat oleh orang-orang dari seluruh dunia.
BP ((Error BackPropagation)
DeepLearning
Auto-encoder (pengkode otomatis),
SAE (Stacked Auto-encoders) adalah stack auto-encoder yang digunakan untuk mengencodekan data.
Sparse Auto-encoders adalah pengenkodekan otomatis.
Denoising Auto-encoders adalah pengenkodekan otomatis untuk menghilangkan kebisingan.
Contractive Auto-encoders adalah pengenkodekan otomatis kontraktif.
RBM (Restricted Boltzmann Machine) adalah sebuah mesin berteknologi tinggi yang digunakan untuk menghasilkan tenaga listrik.
DBN (Deep Belief Network) adalah sebuah jaringan yang berbasis di Indonesia.
CNN (ConvolutionalNeural Network) adalah sebuah jaringan saraf konvolusional yang dibangun di Amerika Serikat.
Word2Vec (Model Pembelajaran Vektor Kata)
DimensionalityReduction (pengurangan dimensi):
LDA LinearDiscriminant Analysis/Fisher Linear Discriminant adalah metode analisis linear yang digunakan untuk menentukan perbedaan yang terjadi pada suatu objek.
PCA (Principal Component Analysis) adalah analisis komponen utama.
ICA (Independent Component Analysis) adalah sebuah lembaga penelitian yang berbasis di Singapura.
SVD (Singular Value Decomposition) adalah suatu bentuk dari SVD.
FA ((FactorAnalysis Analisis faktor) }}
Text Mining (penggalian teks):
VSM (Vector Space Model) adalah model ruang vektor.
Word2Vec (Model Pembelajaran Vektor Kata)
Terjemahan Bahasa Indonesia:
TF-IDF ((Term Frequency-Inverse DocumentFrequency) adalah istilah yang digunakan untuk mengacu pada frekuensi dokumen terbalik.
MI (MutualInformation) adalah sebuah situs web yang berisi informasi tentang Indonesia.
ECE (Expected Cross Entropy) adalah sebuah metode yang digunakan untuk mengevaluasi entropy dari suatu entitas.
QEMI (Kotak Informasi Sekunder)
IG ((InformationGain) adalah sebuah situs web yang berisi informasi tentang teknologi informasi.
IGR (Information Gain Ratio) adalah rasio keuntungan informasi yang lebih tinggi dibandingkan dengan rasio keuntungan informasi yang lebih rendah.
TEW (TextEvidence Weight) adalah sebuah organisasi yang berbasis di Indonesia yang bergerak di bidang teks.
OR (Odds Ratio)
N-Gram Model,
LSA (Latent Semantic Analysis) adalah bahasa pemrograman bahasa Inggris yang digunakan untuk membuat kata-kata dalam bahasa Inggris.
PLSA (Probabilistic Latent Semantic Analysis) adalah analisis semantik laten berdasarkan probabilitas.
LDA (Latent Dirichlet Allocation)
Association Mining (penggalian terkait):
Apriori,
FP-growth (Frequency Pattern Tree Growth) adalah algoritma pertumbuhan pohon dengan pola frekuensi.
AprioriAll,
Spade。
Recommendation Engine (mesin rekomendasi):
DBR (Demographic-based Recommendation) adalah sebuah rekomendasi berbasis demografi yang dibuat oleh DBR, sebuah organisasi non-pemerintah yang berbasis di Indonesia.
CBR (Context-basedRecommendation) adalah sebuah rekomendasi berbasis konteks yang dibuat oleh sebuah organisasi yang berbasis di Indonesia.
CF (Collaborative Filtering) adalah sebuah aplikasi yang dibuat oleh Google untuk memfilter dan membagikan konten video.
UCF (User-based Collaborative Filtering Recommendation) adalah sebuah rekomendasi yang dibuat oleh Google untuk membuat filter kolaboratif berbasis pengguna.
ICF (Item-based Collaborative Filtering Recommendation) adalah sebuah rekomendasi untuk memfilter kolaboratif berdasarkan item.
Similarity Measure & Distance Measure (pengukuran kesamaan dan jarak):
Jarak Euclidean
ManhattanDistance, sebuah blog yang dipublikasikan di New York Times, menuliskan:
Dalam video yang diunggah di Twitter, Chebyshev Distance, seorang wanita yang tinggal di Chebyshev, Rusia, menulis:
MinkowskiDistance (Jarak Minkowski) adalah jarak antara dua kota di Rusia.
Standardized Euclidean Distance (StD) adalah jarak standar yang digunakan untuk menentukan jarak dari suatu objek ke objek lainnya.
Ini adalah salah satu dari beberapa foto yang diunggah di Twitter.
Cos ((Cosine) adalah sebuah irama yang terdiri dari dua irama.
HammingDistance/Edit Distance (dalam bahasa Inggris), Hamming Distance/Edit Distance (dalam bahasa Inggris), Hamming Distance/Edit Distance (dalam bahasa Inggris), Hamming Distance/Edit Distance
JaccardDistance (Jarak Jaccard) adalah sebuah blog yang dibuat oleh seorang blogger asal Inggris, yang menuliskan sebuah artikel di blognya, Jaccard.