avatar of 发明者量化-小小梦 发明者量化-小小梦
집중하다 사신
4
집중하다
1271
수행원

일반적인 머신 러닝 및 데이터 마이닝 관련 용어

만든 날짜: 2017-03-20 09:58:22, 업데이트 날짜:
comments   0
hits   2015

일반적인 머신 러닝 및 데이터 마이닝 관련 용어

  • 샘플링 (Sampling):

    • 간단한 무작위 샘플링 (Simple Random Sampling) 은
    • 오프라인 샘플링 (OfflineSampling)
    • 온라인 샘플링 (Online Sampling) 은 온라인에서 가능한 K 샘플링을 하는 것입니다.
    • Ratio-based Sampling (비율 기반 샘플링)
    • 수표의 수표는 수표의 수표입니다.
    • 중요성 샘플링
    • MCMC (MarkovChain Monte Carlo)
  • 클러스터링 (clustering):

    • K-Means,
    • K-Mediods,
    • “K-Means”의 2분,
    • FK-Means,
    • Canopy,
    • 스펙트럼-KMeans (스펙트럼 집합)
    • GMM-EM[混合高斯模型] - 최대화 알고리즘을 해결하기 위한 희망
    • K-Pototypes, CLARANS (분열에 기초한),
    • BIRCH는 “단계 기반”이라고 부릅니다.
    • CURE (단계 기반)
    • DBSCAN (밀도에 따라)
    • CLIQUE (밀도 기반 및 격자 기반)
  • Classification&Regression (분류 및 회귀):

    • LR (선형 회귀)
    • 로지스틱 회귀 (LogisticRegression) 로 로지스틱 회귀 (LogisticRegression) 는
    • SR (Softmax Regression) 은 SOFTmax의 수직 회귀를 나타냅니다.
    • GLM (Generalized Linear Model) 은 일반화된 선형 모델입니다.
    • RR (Ridge Regression 회귀/L2 정형 최소 2배 회귀),
    • LASSO ((Least Absolute Shrinkage and Selectionator Operator L1 정형 최소 2배 회귀),
    • RF (사소한 숲)
    • “결정나무”는 “결정나무”라고 불립니다.
    • GBDT (Gradient BoostingDecision Tree) 는 세계 각국의 의사결정 트리 (Decision Tree) 를 구성하고 있습니다.
    • CART (ClassificationAnd Regression Tree) 는 세계 각국의 분류 및 회귀 트리입니다.
    • “K-Nearest Neighbor K”는 “K-Nearest Neighbor K”라는 제목으로 제작되었습니다.
    • SVM(Support VectorMachine),
    • KF (KernelFunction) 다항 함수의 핵 함수
    • Guassian KernelFunction 고스핵 함수/Radial BasisFunction RBF 라디얼 베이스 함수
    • String KernelFunction (스트링 커널 함수)
    • NB ((Naive Bayes),BN ((Bayesian Network/Bayesian Belief Network/ Belief Network 베이스 네트워크/ 베이스 믿음 네트워크/ 신념 네트워크),
    • LDA (Linear Discriminant Analysis/Fisher) 는 리니어 디스크리미넌트 분석 (LDA) 과 리니어 디스크리미넌트 분석 (LDA) 과 리니어 디스크리미넌트 분석 (LDA) 과 리니어 디스크리미넌트 분석 (LDA) 과 리니어 디스크리미넌트 분석 (LDA) 과 리니어 디스크리미넌트 분석 (LDA) 과 리니어 디스크리미넌트 분석 (LDA) 과 리니어 디스크리미넌트 분석 (LDA) 과 리니어 디스크리미넌트 분석 (LDA) 과 리니어 디스크리미넌트 분석 (LDA) 과 리니어 디스크리미넌트 분석 (LDA) 과 리니어 디스크리미넌트 분석 (LDA) 과 리니어 디스크리미넌트 분석 (LDA) 과 리니어 디스크리미넌트 분석 (LDA) 과 리니어 디스크리미넌트 분석 (LDA) 과 리니어 디스크리미넌트 분석 (LDA
    • “Ensemble Learning”은 “Boosting, Bagging, Stacking”을 통합하여 학습하는 방식입니다.
    • Adaptive Boosting (응용적 부스트) 라는 프로젝트가 있습니다.
    • MEM ((Maximum Entropy Model 최대 엔트로피 모델)
  • Effectiveness Evaluation (효율성 평가):

    • Confusion Matrix (혼란 매트릭스) 는
    • Precision (정확성), Recall (기억)
    • “Accuracy” (정확성), “F-score” (F 점수),
    • ROC 커브, AUC, AUC 면적,
    • LiftCurve (리프트 커브), KS Curve (KS 커브)
  • PGM (Probabilistic Graphical Models) 는 확률 그래프 모델이다.

    • BN ((Bayesian Network/Bayesian Belief Network/ BeliefNetwork 베이스 네트워크/ 베이스 신앙 네트워크/ 신념 네트워크),
    • “마르코프 체인” (Markov Chain) 은 “마르코프 체인” (Markov Chain) 이라는 제목으로 쓰여져 있습니다.
    • HMM (영어: HiddenMarkov Model) 은 미네르타의 미네르타 모형이다.
    • MEMM (최대 엔트로피 마르코프 모델)
    • CRF (Conditional Random Field) 는 “조건적 무작위 필드” (Conditional Random Field) 라고 불린다.
    • MRF (Markov Random Field)
  • NN (신경 네트워크):

    • ANN (Artificial Neural Network) 는 인공 신경망으로 구성되어 있습니다.
    • BP ((Error BackPropagation 오류가 역전 전파된다) )
  • DeepLearning

    • “Auto-encoder” (자동 인코더),
    • SAE (Stacked Auto-encoders) 는 스택드 오토-엔코더로 구성되어 있습니다.
    • Sparse Auto-encoders는 자동 인코더를 희석하고,
    • Denoising Auto-encoders는 오토 엔코더의 소음을 제거하고
    • “Contractive Auto-encoders” (계약형 오토 엔코더) 라는 제목으로 쓰여져 있습니다.
    • RBM (Restricted Boltzmann Machine) 는 제한된 볼츠만 기계의 일부입니다.
    • DBN (Deep Belief Network) 는 지난 10년 동안 세계 곳곳에서 활동하고 있습니다.
    • CNN (ConvolutionalNeural Network) 는 이 뉴런을 “신경 네트워크”라고 부릅니다.
    • Word2Vec (어휘 벡터 학습 모델)
  • DimensionalityReduction (차원 감소):

    • LDA LinearDiscriminant Analysis/Fisher Linear Discriminant 선형 차별 분석/피셔 선형 차별 분석
    • PCA (Principal Component Analysis) 는 주요 구성 요소를 분석하는 것으로 알려져 있습니다.
    • ICA (독립 컴포넌트 분석)
    • SVD (Singular Value Decomposition) 는 SVD (Singular Value Decomposition) 를 의미하며, SVD는 SVD의 SVD를 의미하며, SVD는 SVD의 SVD이다.
    • FA ((FactorAnalysis 인자분석법)
  • 글쓰기 채굴 (text mining):

    • VSM (Vector Space Model) 는 벡터 공간 모델,
    • 워드2베크 (Word2Vec) 는 워드 벡터 학습 모델입니다.
    • “Term Frequency”는 “Term Frequency”라는 단어로 쓰여져 있습니다.
    • TF-IDF (Term Frequency-Inverse DocumentFrequency) 는 문서를 입력하는 데 필요한 모든 정보를 입력하는 데 도움이 됩니다.
    • MI (MutualInformation) 는 인도에서 가장 많은 정보를 수집하는 기관입니다.
    • ECE (Expected Cross Entropy) 는 ECE (Expected Cross Entropy) 라는 이름의 기호를 가지고 있습니다.
    • QEMI (초등 정보 )
    • IG (InformationGain: 정보의 이익)
    • IGR (Information Gain Ratio) 는 정보의 수익률을 나타냅니다.
    • 기니 계수 (Gini coefficient) 는
    • x2 Statistic (x2 통계)
    • TEW (TextEvidence Weight) 는 문헌 증거권에 관한 논문입니다.
    • 이 글은 ODDS Ratio의 우세한 비율을 나타냅니다.
    • N-Gram Model,
    • LSA (Latent Semantic Analysis) 는 잠재적인 시맨틱 분석 (潜在的语义分析) 이라고도 불린다.
    • PLSA (Probabilistic Latent Semantic Analysis) 는 확률에 기반한 잠재적인 의미 분석을 하는 것으로,
    • LDA ((Latent DirichletAllocation 잠재적인 딜릭레이 모델) .
  • Association Mining (광업협회):

    • Apriori,
    • FP-growth (Frequency Pattern Tree Growth) 는 FP-growth (주파수 패턴 나무 성장 알고리즘) 이라는 이름의 알고리즘을 개발했습니다.
    • AprioriAll,
    • Spade。
  • 추천 엔진:

    • DBR (Demographic-based Recommendation) 는 인구통계학에 기반한 권고안으로, 인구통계학에 기반한 권고안으로, 인구통계학에 기반한 권고안으로, 인구통계학에 기반한 권고안으로, 인구통계학에 기반한 권고안으로, 인구통계학에 기반한 권고안으로, 인구통계학에 기반한 권고안으로,
    • CBR (Context-basedRecommendation) 는 컨텍스트 기반의 추천으로 구성되어 있습니다.
    • CF (Collaborative Filtering) 는 “공동 필터링”이라고 불립니다.
    • UCF는 사용자 기반 협업 필터링 권장사항 (User-based Collaborative Filtering Recommendation) 을 발간하고 있습니다.
    • ICF (Item-based Collaborative Filtering Recommendation) 는 아이템 기반의 협업 필터링을 권장하는 프로그램이다.
  • Similarity Measure&Distance Measure (사상도 측정과 거리 측정):

    • 유클리드 거리 (Euclidean Distance)
    • 맨해튼 거리 (Manhattan Distance) 는 뉴욕시의 가장 큰 도시입니다.
    • 이 사진의 제목은 “체비셰프 거리” (Chebyshev Distance).
    • 미코프스키 거리 (Minkowski Distance) 는 미코프스키 시나리오의 한 부분이다.
    • 표준화된 유클리드 거리 (Standardized Euclidean Distance)
    • 마알라노비스 거리 (MahalanobisDistance)
    • 코스 (Cosine arrow)
    • HammingDistance/Edit Distance (해밍 거리/편집 거리) 는
    • “자카드 거리 (JaccardDistance) “라는 제목의 이 글은 “자카드 거리 (JaccardDistance) “라는 제목의 글입니다.
    • 연립 계수 거리 (Correlation Coefficient Distance) 는
    • 정보 엔트로피 (Information Entropy) 는
    • KL ((Kullback-Leibler Divergence KL 분산도/Relative Entropy 상대적으로 ) )
  • 특징 선택 (Feature Selection):

    • 상호 정보 (Mutual Information)
    • 이 문서의 주파수 (Document Frequency) 는
    • 정보의 이익 (Information Gain)
    • 퀴사 테스트는 퀴사 테스트의 일부입니다.
    • Gini (기니 계수)
  • Outlier Detection (비정상점 탐지 알고리즘):

    • 통계 기반 (Statistical-based) 으로
    • “이런 일이 벌어질 수 있는 이유는,
    • “Density-based”는 “밀도 기반”입니다.
    • 클러스터링 기반 (clustering-based)
  • Learning to Rank (학습을 바탕으로 순위):

    • Pointwise:McRank;
    • Pairwise:RankingSVM,RankNet,Frank,RankBoost;
    • Listwise:AdaRank,SoftRank,LamdaMART。