avatar of 发明者量化-小小梦 发明者量化-小小梦
tập trung vào tin nhắn riêng tư
4
tập trung vào
1271
Người theo dõi

Các thuật ngữ phổ biến liên quan đến học máy và khai thác dữ liệu

Được tạo ra trong: 2017-03-20 09:58:22, cập nhật trên:
comments   0
hits   2015

Các thuật ngữ phổ biến liên quan đến học máy và khai thác dữ liệu

  • Sampling (thí dụ):

    • Simple Random Sampling (Thử nghiệm ngẫu nhiên đơn giản)
    • OfflineSampling (tạm dịch: lấy mẫu ngoài mạng)
    • Online Sampling (Tạm dịch: Mẫu thử trực tuyến)
    • Ratio-based Sampling (tạm dịch: Thử lấy mẫu ngẫu nhiên theo tỷ lệ)
    • Acceptance-RejectionSampling (tạm dịch: Thử lấy mẫu từ chối chấp nhận)
    • Importance Sampling (tạm dịch: Mẫu quan trọng)
    • MCMC ((MarkovChain Monte Carlo)
  • Clustering:

    • K-Means,
    • K-Mediods,
    • K-Means
    • FK-Means,
    • Canopy,
    • Các nhà nghiên cứu đã tìm ra cách để phân loại các nhóm phân tử.
    • GMM-EM - mô hình hỗn hợp Gaussian - mong muốn giải quyết các thuật toán tối đa hóa.
    • K-Pototypes, CLARANS (dựa trên phân loại),
    • BIRCH (dựa trên cấp bậc)
    • CURE (dựa trên cấp bậc)
    • DBSCAN (dựa trên mật độ)
    • CLIQUE ((dựa trên mật độ và dựa trên lưới))
  • Classification&Regression: Classification&Regression: Classification&Regression: Classification&Regression: Classification&Regression: Classification&Regression: Classification&Regression: Classification&Regression: Classification&Regression:

    • LR ((Linear Regression)) là một ví dụ điển hình về sự suy thoái tuyến tính.
    • LR (LogisticRegression) là một thuật ngữ được sử dụng để mô tả sự hồi phục logic.
    • SR (Softmax Regression)
    • GLM (Generalized Linear Model) là mô hình tuyến tính định nghĩa rộng.
    • RR ((Ridge Regression regression/L2 chính xác nhỏ nhất 2 lần regression),
    • LASSO ((Least Absolute Shrinkage andSelectionator Operator L1 chính xác tối thiểu hai lần trở lại),
    • RF: “Random Forest” (Rừng ngẫu nhiên)
    • DT: “Cái cây quyết định”
    • GBDT (Gradient BoostingDecision Tree) là một cây quyết định tăng độ dốc theo độ dốc.
    • CART (Classification And Regression Tree) là một cây phân loại và hồi quy.
    • (K-Nearest Neighbor K)
    • SVM(Support VectorMachine),
    • KF ((KernelFunction Hàm nhân PolynomialKernel Function Hàm nhân đa thức,
    • Guassian KernelFunction Guassian KernelFunction/Radial BasisFunction RBF Phương thức cơ sở đường kính,
    • String KernelFunction (Chức năng hạt nhân String)
    • NB ((Naive Bayes),BN ((Bayesian Network/Bayesian Belief Network/ Belief Network) là một mạng lưới tin tưởng của Bayes.
    • LDA ((Linear Discriminant Analysis/FisherLinear Discriminant phân tích phân biệt tuyến tính),
    • EL ((Ensemble Learning) là một chương trình học tập tích hợp Boosting, Bagging, Stacking,
    • AdaBoost (tạm dịch: Nâng cao thích ứng)
    • MEM ((Maximum Entropy Model mô hình lớn nhất)
  • Đánh giá hiệu quả:

    • Confusion Matrix (mảng hỗn độn)
    • Precision (chính xác), Recall (tỷ lệ nhớ lại),
    • Accuracy (chính xác), F-score (điểm F),
    • ROC Curve (đường cong ROC), AUC (đường cong AUC),
    • LiftCurve, KS Curve
  • PGM ((Probabilistic Graphical Models mô hình đồ họa xác suất):

    • BN ((Bayesian Network/Bayesian Belief Network/ BeliefNetwork) là một mạng lưới tin tưởng của Bayes.
    • MC (Markov Chain) là một trong những trang web có nội dung liên quan đến vấn đề này.
    • HMM ((HiddenMarkov Model) là một mô hình của HMM.
    • MEMM (Maximum Entropy Markov Model) là mô hình mà chúng ta có thể sử dụng để phân tích sự tồn tại của một vật thể.
    • CRF (Conditional Random Field), một sân bay ngẫu nhiên có điều kiện.
    • MRF (Markov Random Field)
  • NN (Mạng thần kinh):

    • ANN (Mạng lưới thần kinh nhân tạo)
    • BP ((Error BackPropagation lỗi truyền ngược))
  • DeepLearning

    • Auto-encoder (tự động mã hóa),
    • SAE (Stacked Auto-encoders) là một bộ mã hóa tự động được xếp chồng lên nhau.
    • Sparse Auto-encoders là một bộ mã hóa tự động.
    • Denoising Auto-encoders là một bộ mã hóa tự động.
    • Contractive Auto-encoders (tạm dịch: Máy mã hóa tự động thu hẹp)
    • RBM (Restricted Boltzmann Machine) là một máy Boltzmann có giới hạn.
    • DBN (Deep Belief Network) là một mạng lưới tin tưởng sâu sắc.
    • CNN (ConvolutionalNeural Network) là một mạng lưới thần kinh xoắn tròn, và là một trong những mạng lưới thần kinh xoắn tròn nhất thế giới.
    • Word2Vec (Mô hình học vectơ từ)
  • DimensionalityReduction (Giảm kích thước):

    • LDA LinearDiscriminant Analysis/Fisher Linear Discriminant Phân tích phân biệt tuyến tính
    • PCA (Phân tích thành phần chính)
    • ICA ((IndependentComponent Analysis) là một công ty chuyên về phân tích các thành phần độc lập.
    • SVD (Singular Value Decomposition) là một dạng phân tích giá trị đơn lẻ.
    • FA ((FactorAnalysis là phương pháp phân tích nhân tố).
  • Text Mining (tài nguyên văn bản):

    • VSM (Vector Space Model) là mô hình không gian vectơ.
    • Word2Vec là mô hình học vectơ từ.
    • TF (Term Frequency) là một từ ngữ tiếng Anh có nghĩa là “tần số” (Term Frequency).
    • TF-IDF (Term Frequency-Inverse DocumentFrequency) là một dạng định dạng của các định dạng khác nhau.
    • MI ((MutualInformation) là một trang web có nội dung liên quan đến các vấn đề liên quan đến quyền lợi con người.
    • ECE (Expected Cross Entropy) là một dạng phân tích của hệ thống phân tích.
    • QEMI (Công cụ thông tin thứ hai)
    • IG ((InformationGain)) là một trong những trang web có nội dung về các vấn đề liên quan đến quyền lợi của con người.
    • IGR (tỷ lệ lợi nhuận thông tin)
    • Gini (tỷ số Gini)
    • x2 Statistic ((x2 số liệu thống kê),
    • TEW (TextEvidence Weight) là một trang web chuyên về chứng cứ văn bản.
    • OR ((Odds Ratio) tỷ lệ thuận),
    • N-Gram Model,
    • LSA (Latent Semantic Analysis - Phân tích ngữ nghĩa tiềm ẩn)
    • PLSA (Probabilistic Latent Semantic Analysis) là một phân tích ngữ nghĩa tiềm ẩn dựa trên xác suất.
    • LDA ((Latent DirichletAllocation Mô hình Dirichlet tiềm ẩn))
  • Association Mining (tổ chức khai thác):

    • Apriori,
    • FP-growth (Frequency Pattern Tree Growth) là thuật toán phát triển cây theo mô hình tần số.
    • AprioriAll,
    • Spade。
  • Recommendation Engine (Trình giới thiệu):

    • DBR (Demographic-based Recommendation) là một đề xuất dựa trên số liệu thống kê nhân khẩu học.
    • CBR (Context-basedRecommendation) là một trong những từ ngữ được sử dụng trong các bài viết của chúng tôi.
    • CF (Collaborative Filtering) là một ứng dụng cho việc lọc thông tin của người dùng.
    • UCF (User-based Collaborative Filtering Recommendation) là một đề xuất về lọc cộng tác dựa trên người dùng, và UCF (User-based Collaborative Filtering Recommendation) là một đề xuất về lọc cộng tác dựa trên người dùng.
    • ICF ((Item-based Collaborative Filtering Recommendation)
  • Similarity Measure&Distance Measure: (Cách đo tương tự và khoảng cách):

    • Khoảng cách Euclidean
    • Một số người khác cũng đã viết về vụ việc này.
    • Theo các nhà nghiên cứu, khoảng cách giữa Chebyshev và Chebyshev là khoảng cách giữa hai thành phố.
    • Khoảng cách Minkowski (Minkowski Distance)
    • Standardized Euclidean Distance (tạm dịch: Khoảng cách Euclidean chuẩn)
    • Khả năng này đã được chứng minh trong một cuộc phỏng vấn với các nhà báo ở Việt Nam.
    • Cos ((Cosine)) là một từ trong tiếng Anh có nghĩa là “về cùng”.
    • HammingDistance/Edit Distance (tạm dịch: Khoảng cách Hamming/Sửa đổi)
    • Trong một bài đăng đăng trên Twitter, một người đàn ông đã viết:
    • Correlation Coefficient Distance (kích thước tương quan)
    • InformationEntropy (Thiên thạch thông tin)
    • KL ((Kullback-Leibler Divergence KL phân tán / Relative Entropy tương đối nhỏ)
  • Feature Selection (chọn tính năng):

    • Mutual Information (thông tin chung)
    • DocumentFrequence (Tần số tài liệu)
    • Information Gain (Lợi nhuận thông tin)
    • Chi-squared Test (thử nghiệm chi-squared)
    • Gini (tỷ số Gini)
  • Outlier Detection (chính thức phát hiện điểm bất thường):

    • Các nhà nghiên cứu đã đưa ra một số kết luận về việc sử dụng các phương tiện truyền thông xã hội.
    • “Đây là những gì chúng tôi đã làm.
    • Density-based (dựa trên mật độ)
    • Clustering-based (dựa trên nhóm).
  • Learning to Rank (Trang xếp hạng dựa trên học tập):

    • Pointwise:McRank;
    • Pairwise:RankingSVM,RankNet,Frank,RankBoost;
    • Listwise:AdaRank,SoftRank,LamdaMART。