8
Follow
1364
Followers
Các thuật ngữ phổ biến liên quan đến học máy và khai thác dữ liệu
Created 2017-03-20 09:58:22
0
2184
Các thuật ngữ phổ biến liên quan đến học máy và khai thác dữ liệu
-
Sampling (thí dụ):
- Simple Random Sampling (Thử nghiệm ngẫu nhiên đơn giản)
- OfflineSampling (tạm dịch: lấy mẫu ngoài mạng)
- Online Sampling (Tạm dịch: Mẫu thử trực tuyến)
- Ratio-based Sampling (tạm dịch: Thử lấy mẫu ngẫu nhiên theo tỷ lệ)
- Acceptance-RejectionSampling (tạm dịch: Thử lấy mẫu từ chối chấp nhận)
- Importance Sampling (tạm dịch: Mẫu quan trọng)
- MCMC ((MarkovChain Monte Carlo)
-
Clustering:
- K-Means,
- K-Mediods,
- K-Means
- FK-Means,
- Canopy,
- Các nhà nghiên cứu đã tìm ra cách để phân loại các nhóm phân tử.
- GMM-EM - mô hình hỗn hợp Gaussian - mong muốn giải quyết các thuật toán tối đa hóa.
- K-Pototypes, CLARANS (dựa trên phân loại),
- BIRCH (dựa trên cấp bậc)
- CURE (dựa trên cấp bậc)
- DBSCAN (dựa trên mật độ)
- CLIQUE ((dựa trên mật độ và dựa trên lưới))
-
Classification&Regression: Classification&Regression: Classification&Regression: Classification&Regression: Classification&Regression: Classification&Regression: Classification&Regression: Classification&Regression: Classification&Regression:
- LR ((Linear Regression)) là một ví dụ điển hình về sự suy thoái tuyến tính.
- LR (LogisticRegression) là một thuật ngữ được sử dụng để mô tả sự hồi phục logic.
- SR (Softmax Regression)
- GLM (Generalized Linear Model) là mô hình tuyến tính định nghĩa rộng.
- RR ((Ridge Regression <unk> regression/L2 chính xác nhỏ nhất 2 lần regression),
- LASSO ((Least Absolute Shrinkage andSelectionator Operator L1 chính xác tối thiểu hai lần trở lại),
- RF: "Random Forest" (Rừng ngẫu nhiên)
- DT: "Cái cây quyết định"
- GBDT (Gradient BoostingDecision Tree) là một cây quyết định tăng độ dốc theo độ dốc.
- CART (Classification And Regression Tree) là một cây phân loại và hồi quy.
- (K-Nearest Neighbor K)
- SVM(Support VectorMachine),
- KF ((KernelFunction Hàm nhân PolynomialKernel Function Hàm nhân đa thức,
- Guassian KernelFunction Guassian KernelFunction/Radial BasisFunction RBF Phương thức cơ sở đường kính,
- String KernelFunction (Chức năng hạt nhân String)
- NB ((Naive Bayes),BN ((Bayesian Network/Bayesian Belief Network/ Belief Network) là một mạng lưới tin tưởng của Bayes.
- LDA ((Linear Discriminant Analysis/FisherLinear Discriminant phân tích phân biệt tuyến tính),
- EL ((Ensemble Learning) là một chương trình học tập tích hợp Boosting, Bagging, Stacking,
- AdaBoost (tạm dịch: Nâng cao thích ứng)
- MEM ((Maximum Entropy Model mô hình lớn nhất) <unk>
-
Đánh giá hiệu quả:
- Confusion Matrix (mảng hỗn độn)
- Precision (chính xác), Recall (tỷ lệ nhớ lại),
- Accuracy (chính xác), F-score (điểm F),
- ROC Curve (đường cong ROC), AUC (đường cong AUC),
- LiftCurve, KS Curve
-
PGM ((Probabilistic Graphical Models mô hình đồ họa xác suất):
- BN ((Bayesian Network/Bayesian Belief Network/ BeliefNetwork) là một mạng lưới tin tưởng của Bayes.
- MC (Markov Chain) là một trong những trang web có nội dung liên quan đến vấn đề này.
- HMM ((HiddenMarkov Model) là một mô hình của HMM.
- MEMM (Maximum Entropy Markov Model) là mô hình mà chúng ta có thể sử dụng để phân tích sự tồn tại của một vật thể.
- CRF (Conditional Random Field), một sân bay ngẫu nhiên có điều kiện.
- MRF (Markov Random Field)
-
NN (Mạng thần kinh):
- ANN (Mạng lưới thần kinh nhân tạo)
- BP ((Error BackPropagation lỗi truyền ngược))
-
DeepLearning
- Auto-encoder (tự động mã hóa),
- SAE (Stacked Auto-encoders) là một bộ mã hóa tự động được xếp chồng lên nhau.
- Sparse Auto-encoders là một bộ mã hóa tự động.
- Denoising Auto-encoders là một bộ mã hóa tự động.
- Contractive Auto-encoders (tạm dịch: Máy mã hóa tự động thu hẹp)
- RBM (Restricted Boltzmann Machine) là một máy Boltzmann có giới hạn.
- DBN (Deep Belief Network) là một mạng lưới tin tưởng sâu sắc.
- CNN (ConvolutionalNeural Network) là một mạng lưới thần kinh xoắn tròn, và là một trong những mạng lưới thần kinh xoắn tròn nhất thế giới.
- Word2Vec (Mô hình học vectơ từ)
-
DimensionalityReduction (Giảm kích thước):
- LDA LinearDiscriminant Analysis/Fisher Linear Discriminant Phân tích phân biệt tuyến tính
- PCA (Phân tích thành phần chính)
- ICA ((IndependentComponent Analysis) là một công ty chuyên về phân tích các thành phần độc lập.
- SVD (Singular Value Decomposition) là một dạng phân tích giá trị đơn lẻ.
- FA ((FactorAnalysis là phương pháp phân tích nhân tố).
-
Text Mining (tài nguyên văn bản):
- VSM (Vector Space Model) là mô hình không gian vectơ.
- Word2Vec là mô hình học vectơ từ.
- TF (Term Frequency) là một từ ngữ tiếng Anh có nghĩa là "tần số" (Term Frequency).
- TF-IDF (Term Frequency-Inverse DocumentFrequency) là một dạng định dạng của các định dạng khác nhau.
- MI ((MutualInformation) là một trang web có nội dung liên quan đến các vấn đề liên quan đến quyền lợi con người.
- ECE (Expected Cross Entropy) là một dạng phân tích của hệ thống phân tích.
- QEMI (Công cụ thông tin thứ hai)
- IG ((InformationGain)) là một trong những trang web có nội dung về các vấn đề liên quan đến quyền lợi của con người.
- IGR (tỷ lệ lợi nhuận thông tin)
- Gini (tỷ số Gini)
- x2 Statistic ((x2 số liệu thống kê),
- TEW (TextEvidence Weight) là một trang web chuyên về chứng cứ văn bản.
- OR ((Odds Ratio) tỷ lệ thuận),
- N-Gram Model,
- LSA (Latent Semantic Analysis - Phân tích ngữ nghĩa tiềm ẩn)
- PLSA (Probabilistic Latent Semantic Analysis) là một phân tích ngữ nghĩa tiềm ẩn dựa trên xác suất.
- LDA ((Latent DirichletAllocation Mô hình Dirichlet tiềm ẩn))
-
Association Mining (tổ chức khai thác):
- Apriori,
- FP-growth (Frequency Pattern Tree Growth) là thuật toán phát triển cây theo mô hình tần số.
- AprioriAll,
- Spade。
-
Recommendation Engine (Trình giới thiệu):
- DBR (Demographic-based Recommendation) là một đề xuất dựa trên số liệu thống kê nhân khẩu học.
- CBR (Context-basedRecommendation) là một trong những từ ngữ được sử dụng trong các bài viết của chúng tôi.
- CF (Collaborative Filtering) là một ứng dụng cho việc lọc thông tin của người dùng.
- UCF (User-based Collaborative Filtering Recommendation) là một đề xuất về lọc cộng tác dựa trên người dùng, và UCF (User-based Collaborative Filtering Recommendation) là một đề xuất về lọc cộng tác dựa trên người dùng.
- ICF ((Item-based Collaborative Filtering Recommendation) <unk>
-
Similarity Measure&Distance Measure: (Cách đo tương tự và khoảng cách):
- Khoảng cách Euclidean
- Một số người khác cũng đã viết về vụ việc này.
- Theo các nhà nghiên cứu, khoảng cách giữa Chebyshev và Chebyshev là khoảng cách giữa hai thành phố.
- Khoảng cách Minkowski (Minkowski Distance)
- Standardized Euclidean Distance (tạm dịch: Khoảng cách Euclidean chuẩn)
- Khả năng này đã được chứng minh trong một cuộc phỏng vấn với các nhà báo ở Việt Nam.
- Cos ((Cosine)) là một từ trong tiếng Anh có nghĩa là "về cùng".
- HammingDistance/Edit Distance (tạm dịch: Khoảng cách Hamming/Sửa đổi)
- Trong một bài đăng đăng trên Twitter, một người đàn ông đã viết:
- Correlation Coefficient Distance (kích thước tương quan)
- InformationEntropy (Thiên thạch thông tin)
- KL ((Kullback-Leibler Divergence KL phân tán / Relative Entropy tương đối nhỏ) <unk>
-
Feature Selection (chọn tính năng):
- Mutual Information (thông tin chung)
- DocumentFrequence (Tần số tài liệu)
- Information Gain (Lợi nhuận thông tin)
- Chi-squared Test (thử nghiệm chi-squared)
- Gini (tỷ số Gini)
-
Outlier Detection (chính thức phát hiện điểm bất thường):
- Các nhà nghiên cứu đã đưa ra một số kết luận về việc sử dụng các phương tiện truyền thông xã hội.
- "Đây là những gì chúng tôi đã làm.
- Density-based (dựa trên mật độ)
- Clustering-based (dựa trên nhóm).
-
Learning to Rank (Trang xếp hạng dựa trên học tập):
- Pointwise:McRank;
- Pairwise:RankingSVM,RankNet,Frank,RankBoost;
- Listwise:AdaRank,SoftRank,LamdaMART。
Related Recommendations
Comment
All comments (0)
No data
- 1
