흔히 사용되는 기계 학습 및 데이터 채굴 관련 용어

저자:작은 꿈, 2017-03-20 09:58:22, 업데이트:

흔히 사용되는 기계 학습 및 데이터 채굴 관련 용어

  • 샘플링 ( 샘플링):

    • 간단한 무작위 샘플링 (Simple Random Sampling)
    • 오프라인 샘플링 (오프라인에서 K 샘플링이 가능)
    • 온라인 샘플링 (K 샘플링이 가능)
    • 비율 기반 샘플링 (Ratio-based Sampling)
    • 인수 거부 샘플링 (acceptance-rejection sampling)
    • 중요성 샘플링
    • MCMC ((MarkovChain Monte Carlo MarkovMont Carlo 샘플링 알고리즘: 메트로폴리스-하스팅 & 기브스))
  • 클러스터링 (Clustering):

    • K-means,
    • K-Mediods,
    • 2분 K-Means,
    • FK-Means,
    • 캔노피
    • 스펙트럼-KMeans (스펙트럼 그룹)
    • GMM-EM (융합 고스 모델 - 최대화 알고리즘의 기대 해결)
    • K-Pototypes, CLARANS (분류에 기반한)
    • BIRCH (위계별로)
    • CURE (위계별로)
    • DBSCAN (밀도에 따라)
    • CLIQUE (밀도 기반 및 격자 기반)
  • Classification & Regression (분류 및 회귀):

    • 그리고 그 결과로, 우리는 이 모든 것을 더 잘 할 수 있습니다.
    • 그리고 그 결과로, 이 모든 것이 다시 일어납니다.
    • SR (Softmax Regression, 아마도 클래스 로직 회귀)
    • GLM (Generalized Linear Model) 는 일반화된 선형 모델이다.
    • RR ((리지 회귀 회귀/L2 정규 최소 2 배 회귀),
    • LASSO (최저 절대적 수축 및 선택자 연산자 L1 정규 최소 두 배 회귀)
    • RF (작은 숲)
    • DT (DecisionTree) 의 결정 트리
    • GBDT (Gradient Boosting Decision Tree) 는 지각 상승 결정 나무입니다.
    • CART (ClassificationAnd Regression Tree) 는 분류와 회귀의 나무입니다.
    • KNN (K-Nearest Neighbor)
    • SVM (지원 벡터 머신)
    • KF ((KernelFunction) 핵 함수 PolynomialKernel Function 다중형 핵 함수,
    • 가시안 커널 함수 가시안 커널 함수/라디얼 베이스 함수 RBF 지름 방향 베이스 함수
    • String KernelFunction 문자열 커널 함수)
    • NB (나이브 베이어스, 순진 베이어스, BN) (Bayesian Network/Bayesian Belief Network/Belief Network)
    • LDA (Linear Discriminant Analysis/FisherLinear Discriminant Analysis/피셔선형분석 분석)
    • EL (Ensemble Learning) 는 학습을 통합하여 Boosting, Bagging, Stacking를 학습합니다.
    • 아다부스트 (Adaptive Boosting) 는 자율적 증강을 위한 프로그램입니다.
    • MEM (최대 엔트로피 모델 최대의 모델)
  • 효과 평가 (Effectiveness Evaluation):

    • 이 문헌은 이 문헌의 내용에 대해 설명하고 있습니다.
    • 그리고 그 중에서도 가장 중요한 것은 바로 이 점입니다.
    • 그리고 그 중에서도 가장 중요한 것은 정확성 (accuracy), F-score (F-score),
    • ROC 곡선 (ROC 곡선), AUC (AUC 면적),
    • 리프트 커브, KS 커브.
  • PGM (Probabilistic Graphical Models 확률 그래프 모델):

    • BN (Bayesian Network/Bayesian Belief Network/BeliefNetwork 베이스 네트워크/베이스 믿음 네트워크/신앙 네트워크)
    • MC (마르코프 체인)
    • HMM (Hidden Markov Model) 은 마르코프의 모델입니다.
    • MEMM (최대 엔트로피 마르코프 모델)
    • CRF (Conditional Random Field) 는 임의의 무작위 필드입니다.
    • MRF (마르코프 랜덤 필드)
  • 네이버 네트워크 (NN):

    • 이 글은 한 해 전에 한 인터뷰에서 발표된 글입니다.
    • BP (Error BackPropagation: 오류 백프로파게이션)
  • 딥러닝

    • 오토 엔코더 (자동 인코더)
    • SAE (Stacked Auto-encoders) 는 자동 인코더를 쌓아 놓습니다.
    • 스파스 오토 인코더는 희귀한 자동 인코더입니다.
    • Denoising Auto-encoders는 자동 인코더에 대한 소음을 차단합니다.
    • 이 경우, 자동 인코더는 자동 인코더로 변환됩니다.
    • RBM (Restricted Boltzmann Machine) 는 독일의 공학기술 연구소이다.
    • DBN (Deep Belief Network) 는 한 명의 유동인구가 있는 곳이다.
    • CNN (Convolutional Neural Network) 는 이 뉴런에 대해 많은 이야기를 하고 있습니다.
    • Word2Vec (언어 벡터 학습 모델)
  • DimensionalityReduction (차원 축소):

    • LDA Linear Discriminant Analysis/Fisher Linear Discriminant 분석/피셔 선형분별 분석
    • PCA (Principal Component Analysis) 는 주요 구성 요소 분석을 위한 PCA입니다.
    • ICA (Independent Component Analysis) 는 독립적인 구성 요소 분석을 위한 연구소입니다.
    • SVD (Singular Value Decomposition) 는 특이한 값의 분해라고도 한다.
    • FA (faktor analysis) 는 요인 분석 방법이다.
  • 문자 채굴 (text mining):

    • VSM (벡터 공간 모델)
    • Word2Vec (말 벡터 학습 모델)
    • TF (Term Frequency)
    • TF-IDF (Term Frequency-Inverse Document Frequency) 는 용어 주파수-반면 문서 주파수,
    • 이 글은 미카오피디아 (MIA) 에 의해 공개된 글입니다.
    • ECE (Expected Cross Entropy) 는 예상 크로스 엔트로피 (Expected Cross Entropy) 를 나타냅니다.
    • QEMI (제2 정보 )
    • IG (InformationGain) 는 정보의 증대,
    • IGR (Information Gain Ratio) 는 정보의 이익 증가율을 나타내는 기호입니다.
    • 기니 (기니 계수)
    • x2 Statistic (x2 통계)
    • TEW (TextEvidence Weight) 문헌 증거권
    • OR (odds ratio) 우위율,
    • N-그램 모델
    • LSA (Latent Semantic Analysis) 는 유래 시맨틱 분석의 한 가지 예입니다.
    • PLSA (Probabilistic Latent Semantic Analysis) 는 확률에 기초한 잠재적인 의미 분석이다.
    • LDA (Latent Dirichlet Allocation 잠재적인 디리크레 모델)
  • 연계 채굴:

    • 우선,
    • FP-growth (Frequency Pattern Tree Growth) 는 나무의 성장에 대한 알고리즘으로,
    • 우선,
    • 스파드.
  • 추천 엔진:

    • DBR (Demographic-based Recommendation) 는 인구통계 기반의 권고입니다.
    • CBR (Context-basedRecommendation) 는 컨텐츠에 기반한 추천입니다.
    • CF (협동 필터링 협동 필터링)
    • UCF (User-based Collaborative Filtering Recommendation) 는 유저 기반의 협업 필터링 추천을 통해
    • ICF (Item-based Collaborative Filtering Recommendation) 는 프로젝트에 기반한 공동 필터링 추천이다.
  • 유사성 측정 및 거리 측정:

    • 유클리드 거리 (유럽 거리)
    • 맨해튼 거리 (Manhattan Distance)
    • 체비셰프 거리
    • 미네코프스키 거리 (Minkowski distance)
    • 표준화된 유클리드 거리 (Standardized Euclidean Distance)
    • 마할라노비스 거리 (Martian Distance)
    • 코스 (Cosine consonant) 는
    • HammingDistance/Edit Distance (함밍 거리/편집 거리)
    • 자카드 거리 (Jaccard Distance)
    • 연동 계수 거리 (연동 계수 거리)
    • 정보 엔트로피 (Information Entropy)
    • KL (Kullback-Leibler Divergence KL 스파운드/비교적 엔트로피 상대적??)
  • [기능 선택 알고리즘]

    • 이 글은 제 3번째 글입니다.
    • 문헌의 주파수,
    • 정보의 이익 (Information Gain)
    • 이 실험의 결과로,
    • 기니 (기니 계수)
  • 아웃리어 탐지 (Outlier Detection):

    • 이 글은 다른 글과 비교해 볼 수 있습니다.
    • 이 글은 이쪽에서 읽었습니다.
    • 그리고 이 모든 것은 매우 중요한 것입니다.
    • 클러스터링 기반 (Clustering-based)
  • 학습 순위 (Learning to Rank):

    • 점적으로:McRank;
    • 쌍별로: 랭킹SVM, 랭크넷, 프랭크, 랭크 부스트;
    • 목록 순서: AdaRank,SoftRank,LamdaMART。

더 많은