4
Подписаться
1271
Подписчики

Общие термины, связанные с машинным обучением и интеллектуальным анализом данных

Создано: 2017-03-20 09:58:22, Обновлено:
comments   0
hits   2015

Общие термины, связанные с машинным обучением и интеллектуальным анализом данных

  • Отбор проб:

    • Простая случайная выборка
    • OfflineSampling (Вне сети, возможно, K-обработка)
    • Онлайн Сэмплинг (англ. Online Sampling) - это онлайн-опрос, в котором участвуют представители разных национальностей.
    • Ratio-based Sampling (RBSS) - выборка на основе соотношения.
    • Acceptance-RejectionSampling (Отбор проб с принятием или отклонением)
    • Importance Sampling (Импотенциальное выборочное исследование)
    • MCMC ((MarkovChain Monte Carlo Алгоритм выборки Маркова Монте-Карло: Metropolis-Hasting & Gibbs)
  • Кластеризация (clustering):

    • K-Means,
    • K-Mediods,
    • Второй - K-Means.
    • FK-Means,
    • Canopy,
    • В частности, он пишет о том, что “некоторые из этих людей не знают, что такое настоящая любовь”.
    • GMM-EM (смешанная модель Гауса - ожидание решения алгоритма максимизации)
    • К-пототипы, CLARANS (на основе классификации),
    • BIRCH (по уровню),
    • CURE (на основе уровней)
    • DBSCAN (на основе плотности)
    • CLIQUE ((по плотности и по сетке))
  • Classification&Regression (Классификация и регрессия):

    • LR (линейная регрессия)
    • LR - логическая регрессия.
    • SR (Softmax Regression) - логическая регрессия, используемая для определения уровня регрессии.
    • GLM (Generalized Linear Model - генерализованная линейная модель)
    • RR (Ridge Regression) - регрессия на горизонте / L2 (регрессия на горизонте)
    • LASSO ((Least Absolute Shrinkage andSelectionator Operator L1 правильная минимальная двойная регрессия),
    • RF (случайный лес)
    • В этом видео я хочу поделиться с вами некоторыми мыслями о том, как мы можем изменить ситуацию.
    • GBDT (Gradient BoostingDecision Tree) - дерево решения, повышающее степень градиента.
    • CART (Classification And Regression Tree) - классификационное и регрессионное дерево.
    • Например, в одном из интервью, в котором он рассказывал, что его семья живет рядом с ним, он написал:
    • SVM(Support VectorMachine),
    • KF ((KernelFunction) Ядерная функция PolynomialKernel Function многомерная ядра,
    • Guassian KernelFunction Гассианская ядровая функция/Radial BasisFunction RBF Радиальное основание
    • String KernelFunction (функция ядра строки)
    • NB ((Naive Bayes),BN ((Bayesian Network/Bayesian Belief Network/ Belief Network) - сеть, основанная на идеях и убеждениях Байеса.
    • LDA ((Linear Discriminant Analysis/FisherLinear Discriminant), также известный как LDA (англ. Linear Discriminant Analysis/Fisher), является методом, используемым для определения различий между различными видами данных.
    • “Энсамбль” - это интеграция обучения Boosting, Bagging, Stacking, и Ensemble Learning - это интеграция обучения Boosting, Bagging, Stacking, и Ensemble Learning.
    • AdaBoost (Adaptive Boosting) - это программа, которая помогает пользователям адаптироваться к новым технологиям.
    • MEM (англ. Maximum Entropy Model - модель максимальной энтропии) [2].
  • Эффективность оценки (Effectiveness Evaluation):

    • Confusion Matrix (матрица путаницы)
    • В частности, в Google используется специальное приложение, которое называется Precision, Recall, или Recall.
    • Accuracy (точность), F-score (F-оценка),
    • ROC Curve, AUC, площадь AUC,
    • LiftCurve (Lift Curve), KS Curve (KS Curve) [2].
  • PGM (Probabilistic Graphical Models) - вероятностный графический модель:

    • BN ((Bayesian Network/Bayesian Belief Network/ BeliefNetwork) - это сеть, которая создана в 2001 году для изучения и распространения научных открытий, связанных с религией.
    • По его мнению, “это неправда, что мы не можем контролировать ситуацию”.
    • HMM (HiddenMarkov Model) - это модель скрытого Маркова.
    • MEMM (Maximum Entropy Markov Model) - модель максимальной энтропии Маркова.
    • CRF (Conditional Random Field) - условно-случайная полевая система, используемая для определения полевых расстояний между аэропортами.
    • MRF (Markov Random Field) - аэропорт в Москве, расположенный вблизи Маркова.
  • Нейронная сеть:

    • По мнению автора, это не является “проблемным” вопросом, а “необходимостью”.
    • BP ((Error BackPropagation ошибка обратного распространения))
  • DeepLearning

    • Auto-encoder (авто-кодировщик)
    • SAE (Stacked Auto-encoders) - это автоматические кодировщики, которые настраиваются друг на друга.
    • Sparse Auto-encoders - автокодировщик, который позволяет расшифровать и редактировать файлы.
    • Denoising Auto-encoders - это автоматические кодировщики, которые не создают шума.
    • Contractive Auto-encoders (Контрактивные авто-анкодеры)
    • RBM (Restricted Boltzmann Machine) - ограниченная машина Больцмана.
    • DBN (Deep Belief Network) - сеть глубоких верований, основанная в 2005 году в Нью-Йорке.
    • В своем блоге в Twitter он приводит примеры того, как люди могут использовать свои собственные технологии для создания и продвижения своих собственных идей.
    • Word2Vec (модель векторного обучения слов) [2].
  • DimensionalityReduction (Снижение размеров):

    • LDA LinearDiscriminant Analysis/Fisher Linear Discriminant Линейный дискриминантный анализ/Линейный дискриминантный анализ Фишера
    • PCA (Principal Component Analysis) - это анализ основных компонентов, который используется для анализа результатов исследований.
    • ICA (Independent Component Analysis) - это система, используемая для анализа независимых компонентов.
    • SVD (англ. Singular Value Decomposition) - это разложение на однозначные значения.
    • FA (факторный анализ)
  • Например, в Китае, где добыча текста является основой для создания цифровых технологий, существуют:

    • VSM (Vector Space Model) - модель векторного пространства, используемая для моделирования векторальных пространств.
    • Word2Vec (модель векторного обучения слов)
    • TF (Term Frequency) - термин, используемый для обозначения частоты.
    • TF-IDF ((Term Frequency-Inverse DocumentFrequency) - частота, с помощью которой можно получить информацию о том, что происходит с документами.
    • MI ((MutualInformation) - это сайт, который помогает пользователям получать информацию друг от друга.
    • ECE (Ожидаемый кросс-энтропий)
    • QEMI (второй информационный блок)
    • IG ((InformationGain) - информационная выгода),
    • IGR (информационный коэффициент прибыли)
    • В этом случае мы не можем использовать коэффициент Gini.
    • x2 Statistic (((x2 статистические данные),
    • TEW (TextEvidence Weight) - это право на использование текстовых доказательств.
    • OR{\displaystyle \Odds Ratio } - наиболее вероятный показатель.
    • N-Gram Model,
    • LSA (Latent Semantic Analysis - скрытый семантический анализ)
    • PLSA (Probabilistic Latent Semantic Analysis) - это анализ потенциальных смыслов, основанный на вероятности.
    • LDA ((Latent DirichletAllocation) потенциальная модель Дирикле).
  • Association Mining (Ассоциация по добыче полезных ископаемых):

    • Apriori,
    • FP-growth ((Frequency Pattern Tree Growth) - алгоритм роста деревьев с частотой паттернов.
    • AprioriAll,
    • Spade。
  • Рекомендационный движок:

    • DBR (Demographic-based Recommendation) - это рекомендация, основанная на демографии.
    • CBR (Context-basedRecommendation) - рекомендация, основанная на контексте.
    • CF (Collaborative Filtering) - совместная фильтрация.
    • UCF (User-based Collaborative Filtering Recommendation) - рекомендация по совместной фильтрации, основанная на пользователях.
    • ICF ((Item-based Collaborative Filtering Recommendation) - рекомендация по совместной фильтрации, основанная на проектах.
  • Similarity Measure&Distance Measure (измерение сходства и расстояния):

    • Евклидово расстояние
    • В результате, в Нью-Йорке появилась новая сеть интернет-магазинов.
    • В этом видео, сделанном на официальном сайте, можно увидеть, как люди в Чебишеве расстаются друг с другом.
    • По его мнению, это не так просто, поскольку он не имеет никакого отношения к тому, что происходит в мире.
    • Standardized Euclidean Distance (Стандартизированное евклидово расстояние)
    • Например, в Китае, где в настоящее время существует более 100 тысяч островов, находятся более 200 тысяч островов.
    • “Всего лишь один” (Cos)
    • HammingDistance/Edit Distance (англ. Hamming Distance/Edit Distance), также известный как Hamming Distance, - это диапазон, который используется для редактирования файлов.
    • ЯкордДистанция (JaccardDistance) (на английском языке)
    • Корреляционный коэффициент расстояния
    • В этом случае, мы можем использовать информационную энтропию.
    • KL ((Kullback-Leibler Divergence KL рассеянность/Relative Entropy относительно высокая)
  • Feature Selection (Альгоритм выбора характеристик):

    • “Взаимная информация”
    • DocumentFrequence (частота публикации документов)
    • Информация Gain (Получение информации)
    • Чи-квадратный тест
    • Gini (коэффициент Джини) [2].
  • Outlier Detection (алгоритм обнаружения точек отклонения):

    • По данным издания, в 2013 году в стране было зарегистрировано около 200 тысяч случаев заболевания.
    • В этом случае мы не можем использовать “отдаленность” как основа для расстояния.
    • Например, в Китае, в Китае, в Китае, в Китае, в Китае.
    • Clustering-based (на основе кластеризации) [2].
  • Learning to Rank (Сортировка по уровню знаний):

    • Pointwise:McRank;
    • Pairwise:RankingSVM,RankNet,Frank,RankBoost;
    • Listwise:AdaRank,SoftRank,LamdaMART。