8
Follow
1364
Followers
Общие термины, связанные с машинным обучением и интеллектуальным анализом данных
Created 2017-03-20 09:58:22
0
2184
Общие термины, связанные с машинным обучением и интеллектуальным анализом данных
-
Отбор проб:
- Простая случайная выборка
- OfflineSampling (Вне сети, возможно, K-обработка)
- Онлайн Сэмплинг (англ. Online Sampling) - это онлайн-опрос, в котором участвуют представители разных национальностей.
- Ratio-based Sampling (RBSS) - выборка на основе соотношения.
- Acceptance-RejectionSampling (Отбор проб с принятием или отклонением)
- Importance Sampling (Импотенциальное выборочное исследование)
- MCMC ((MarkovChain Monte Carlo Алгоритм выборки Маркова Монте-Карло: Metropolis-Hasting & Gibbs) <unk>
-
Кластеризация (clustering):
- K-Means,
- K-Mediods,
- Второй - K-Means.
- FK-Means,
- Canopy,
- В частности, он пишет о том, что "некоторые из этих людей не знают, что такое настоящая любовь".
- GMM-EM (смешанная модель Гауса - ожидание решения алгоритма максимизации)
- К-пототипы, CLARANS (на основе классификации),
- BIRCH (по уровню),
- CURE (на основе уровней)
- DBSCAN (на основе плотности)
- CLIQUE ((по плотности и по сетке))
-
Classification&Regression (Классификация и регрессия):
- LR (линейная регрессия)
- LR - логическая регрессия.
- SR (Softmax Regression) - логическая регрессия, используемая для определения уровня регрессии.
- GLM (Generalized Linear Model - генерализованная линейная модель)
- RR (Ridge Regression) - регрессия на горизонте / L2 (регрессия на горизонте)
- LASSO ((Least Absolute Shrinkage andSelectionator Operator L1 правильная минимальная двойная регрессия),
- RF (случайный лес)
- В этом видео я хочу поделиться с вами некоторыми мыслями о том, как мы можем изменить ситуацию.
- GBDT (Gradient BoostingDecision Tree) - дерево решения, повышающее степень градиента.
- CART (Classification And Regression Tree) - классификационное и регрессионное дерево.
- Например, в одном из интервью, в котором он рассказывал, что его семья живет рядом с ним, он написал:
- SVM(Support VectorMachine),
- KF ((KernelFunction) Ядерная функция PolynomialKernel Function многомерная ядра,
- Guassian KernelFunction Гассианская ядровая функция/Radial BasisFunction RBF Радиальное основание
- String KernelFunction (функция ядра строки)
- NB ((Naive Bayes),BN ((Bayesian Network/Bayesian Belief Network/ Belief Network) - сеть, основанная на идеях и убеждениях Байеса.
- LDA ((Linear Discriminant Analysis/FisherLinear Discriminant), также известный как LDA (англ. Linear Discriminant Analysis/Fisher), является методом, используемым для определения различий между различными видами данных.
- "Энсамбль" - это интеграция обучения Boosting, Bagging, Stacking, и Ensemble Learning - это интеграция обучения Boosting, Bagging, Stacking, и Ensemble Learning.
- AdaBoost (Adaptive Boosting) - это программа, которая помогает пользователям адаптироваться к новым технологиям.
- MEM (англ. Maximum Entropy Model - модель максимальной энтропии) [2].
-
Эффективность оценки (Effectiveness Evaluation):
- Confusion Matrix (матрица путаницы)
- В частности, в Google используется специальное приложение, которое называется Precision, Recall, или Recall.
- Accuracy (точность), F-score (F-оценка),
- ROC Curve, AUC, площадь AUC,
- LiftCurve (Lift Curve), KS Curve (KS Curve) [2].
-
PGM (Probabilistic Graphical Models) - вероятностный графический модель:
- BN ((Bayesian Network/Bayesian Belief Network/ BeliefNetwork) - это сеть, которая создана в 2001 году для изучения и распространения научных открытий, связанных с религией.
- По его мнению, "это неправда, что мы не можем контролировать ситуацию".
- HMM (HiddenMarkov Model) - это модель скрытого Маркова.
- MEMM (Maximum Entropy Markov Model) - модель максимальной энтропии Маркова.
- CRF (Conditional Random Field) - условно-случайная полевая система, используемая для определения полевых расстояний между аэропортами.
- MRF (Markov Random Field) - аэропорт в Москве, расположенный вблизи Маркова.
-
Нейронная сеть:
- По мнению автора, это не является "проблемным" вопросом, а "необходимостью".
- BP ((Error BackPropagation ошибка обратного распространения))
-
DeepLearning
- Auto-encoder (авто-кодировщик)
- SAE (Stacked Auto-encoders) - это автоматические кодировщики, которые настраиваются друг на друга.
- Sparse Auto-encoders - автокодировщик, который позволяет расшифровать и редактировать файлы.
- Denoising Auto-encoders - это автоматические кодировщики, которые не создают шума.
- Contractive Auto-encoders (Контрактивные авто-анкодеры)
- RBM (Restricted Boltzmann Machine) - ограниченная машина Больцмана.
- DBN (Deep Belief Network) - сеть глубоких верований, основанная в 2005 году в Нью-Йорке.
- В своем блоге в Twitter он приводит примеры того, как люди могут использовать свои собственные технологии для создания и продвижения своих собственных идей.
- Word2Vec (модель векторного обучения слов) [2].
-
DimensionalityReduction (Снижение размеров):
- LDA LinearDiscriminant Analysis/Fisher Linear Discriminant Линейный дискриминантный анализ/Линейный дискриминантный анализ Фишера
- PCA (Principal Component Analysis) - это анализ основных компонентов, который используется для анализа результатов исследований.
- ICA (Independent Component Analysis) - это система, используемая для анализа независимых компонентов.
- SVD (англ. Singular Value Decomposition) - это разложение на однозначные значения.
- FA (факторный анализ)
-
Например, в Китае, где добыча текста является основой для создания цифровых технологий, существуют:
- VSM (Vector Space Model) - модель векторного пространства, используемая для моделирования векторальных пространств.
- Word2Vec (модель векторного обучения слов)
- TF (Term Frequency) - термин, используемый для обозначения частоты.
- TF-IDF ((Term Frequency-Inverse DocumentFrequency) - частота, с помощью которой можно получить информацию о том, что происходит с документами.
- MI ((MutualInformation) - это сайт, который помогает пользователям получать информацию друг от друга.
- ECE (Ожидаемый кросс-энтропий)
- QEMI (второй информационный блок)
- IG ((InformationGain) - информационная выгода),
- IGR (информационный коэффициент прибыли)
- В этом случае мы не можем использовать коэффициент Gini.
- x2 Statistic (((x2 статистические данные),
- TEW (TextEvidence Weight) - это право на использование текстовых доказательств.
- OR{\displaystyle \Odds Ratio } - наиболее вероятный показатель.
- N-Gram Model,
- LSA (Latent Semantic Analysis - скрытый семантический анализ)
- PLSA (Probabilistic Latent Semantic Analysis) - это анализ потенциальных смыслов, основанный на вероятности.
- LDA ((Latent DirichletAllocation) потенциальная модель Дирикле).
-
Association Mining (Ассоциация по добыче полезных ископаемых):
- Apriori,
- FP-growth ((Frequency Pattern Tree Growth) - алгоритм роста деревьев с частотой паттернов.
- AprioriAll,
- Spade。
-
Рекомендационный движок:
- DBR (Demographic-based Recommendation) - это рекомендация, основанная на демографии.
- CBR (Context-basedRecommendation) - рекомендация, основанная на контексте.
- CF (Collaborative Filtering) - совместная фильтрация.
- UCF (User-based Collaborative Filtering Recommendation) - рекомендация по совместной фильтрации, основанная на пользователях.
- ICF ((Item-based Collaborative Filtering Recommendation) - рекомендация по совместной фильтрации, основанная на проектах.
-
Similarity Measure&Distance Measure (измерение сходства и расстояния):
- Евклидово расстояние
- В результате, в Нью-Йорке появилась новая сеть интернет-магазинов.
- В этом видео, сделанном на официальном сайте, можно увидеть, как люди в Чебишеве расстаются друг с другом.
- По его мнению, это не так просто, поскольку он не имеет никакого отношения к тому, что происходит в мире.
- Standardized Euclidean Distance (Стандартизированное евклидово расстояние)
- Например, в Китае, где в настоящее время существует более 100 тысяч островов, находятся более 200 тысяч островов.
- "Всего лишь один" (Cos)
- HammingDistance/Edit Distance (англ. Hamming Distance/Edit Distance), также известный как Hamming Distance, - это диапазон, который используется для редактирования файлов.
- ЯкордДистанция (JaccardDistance) (на английском языке)
- Корреляционный коэффициент расстояния
- В этом случае, мы можем использовать информационную энтропию.
- KL ((Kullback-Leibler Divergence KL рассеянность/Relative Entropy относительно высокая) <unk>
-
Feature Selection (Альгоритм выбора характеристик):
- "Взаимная информация"
- DocumentFrequence (частота публикации документов)
- Информация Gain (Получение информации)
- Чи-квадратный тест
- Gini (коэффициент Джини) [2].
-
Outlier Detection (алгоритм обнаружения точек отклонения):
- По данным издания, в 2013 году в стране было зарегистрировано около 200 тысяч случаев заболевания.
- В этом случае мы не можем использовать "отдаленность" как основа для расстояния.
- Например, в Китае, в Китае, в Китае, в Китае, в Китае.
- Clustering-based (на основе кластеризации) [2].
-
Learning to Rank (Сортировка по уровню знаний):
- Pointwise:McRank;
- Pairwise:RankingSVM,RankNet,Frank,RankBoost;
- Listwise:AdaRank,SoftRank,LamdaMART。
Related Recommendations
Comment
All comments (0)
No data
- 1
