Termos usados com frequência para a aprendizagem de máquinas e mineração de dados

Autora:Sonhos pequenos, Criado: 2017-03-20 09:58:22, Atualizado:

Termos usados com frequência para a aprendizagem de máquinas e mineração de dados

  • Sampling (Sampulação):

    • A primeira é a simples amostragem aleatória.
    • OutlineSampling (possivelmente K-sampling off-line, etc.)
    • Online Sampling (em inglês)
    • Ratio-based Sampling (Proporção baseada em amostragem aleatória)
    • O estudo foi realizado em um laboratório da Universidade de São Paulo, em São Paulo.
    • Importance Sampling (Pronúncia de Amostragem)
    • MCMC (Markov Chain Monte Carlo, Metropolis-Hasting & Gibbs)
  • Clustering (grupo):

    • K significa,
    • K-Medios,
    • Dois pontos K-Means,
    • FK-Means,
    • Canopy,
    • O grupo de pesquisadores da Universidade de São Paulo (USP) é um grupo de pesquisadores da Universidade de São Paulo (USP).
    • GMM-EM (Hybro Gaussian Model - Algorithm de Maximação Esperada)
    • K-Pototypes, CLARANS (com base na classificação)
    • O BIRCH (de acordo com a classificação) é um grupo de pessoas que vivem em uma cidade.
    • CURE (baseado em níveis)
    • DBSCAN (baseado em densidade)
    • CLIQUE (baseado em densidade e baseado em grelha) ⇒
  • Classification & Regression (Classificação e Regressão):

    • LR (Linear Regression)
    • LR (Logistic Regression Logical Regression)
    • SR (Softmax Regression, provavelmente regressão lógica de classe)
    • O GLM (Generalized Linear Model) é um modelo linear em sentido amplo.
    • RR ((Ridge Regression Regression/L2 Regular Minimum Double Regression),
    • LASSO (Least Absolute Shrinkage and Selectionator Operator L1 Regular Minimum Double Regression)
    • RF (Floresta aleatória)
    • O DT (DecisionTree) é uma árvore de decisão.
    • O GBDT (Gradient Boosting Decision Tree) é uma árvore de decisão de gradiente decrescente, que é uma árvore de decisão de crescimento.
    • CART (ClassificationAnd Regression Tree) é uma árvore de classificação regressiva.
    • O K-Nearest Neighbor (K-Nearest Neighbor) é um canal de televisão da China.
    • SVM ((Suporte VectorMachine),
    • KF ((KernelFunction) Função nuclear PolynomialKernel Function Função nuclear de múltiplos,
    • Guassian KernelFunction Função de núcleo de Gauss/Função de base radial Função de base radial
    • String KernelFunction (função de núcleo de string)
    • NB (Naive Bayes, Bayesian Network/Bayesian Belief Network/Belief Network)
    • LDA (Linear Discriminant Analysis/FisherLinear Discriminant Analysis/Fisher linear discriminant analysis) é um método de análise de dados baseado na análise de dados.
    • EL (Ensemble Learning integra a aprendizagem de Boosting, Bagging, Stacking)
    • A adaptação é uma das principais ferramentas para o desenvolvimento de um programa de aprendizagem.
    • MEM (Modelo de Máxima Entropia)
  • A avaliação de eficácia:

    • Confusion Matrix (matriz confusa)
    • O que é que isso significa para mim?
    • Acuracy (precisão), F-score (pontuação F),
    • A curva ROC (ROC curva), AUC (AUC área),
    • LiftCurve (curva de elevação), KS Curve (curva de KS).
  • PGM (Probabilistic Graphical Models Probabilidade gráfica modelo):

    • BN ((Bayesian Network/Bayesian Belief Network/BeliefNetwork Rede Bayesiana de Crenças/Rede Bayesiana de Crenças/Rede de Crenças)
    • MC (Markov Chain)
    • HMM (Hidden Markov Model) O modelo de Markov oculto é um modelo de Markov, que é um modelo de Markov oculto.
    • O MEMM (Maximum Entropy Markov Model) é um modelo de entropia de Markov.
    • CRF (Conditional Random Field) é um campo aleatório condicional.
    • MRF (Markov Random Field, Aeroporto Random de Markov)
  • NN (Red Neural):

    • A ANN (Artificial Neural Network) é uma rede de neurônios artificiais, que é uma rede de informação e comunicação para o público.
    • BP (Error BackPropagation) (Erro de propagação para trás).
  • DeepLearning

    • Auto-encoder (auto-codificador)
    • SAE (Stacked Auto-encoders) é um conjunto de auto-encoders empilhados.
    • O Sparse Auto-encoders é um codificador automático muito raro.
    • Denoising Auto-encoders para bloquear o ruído dos auto-encoders.
    • O código de código é um código de código de código de código de código de código.
    • RBM (Restricted Boltzmann Machine) é uma máquina de bolsman restrita, que é uma máquina de bolsman restrito.
    • O DBN (Deep Belief Network) é uma rede de confissões profundas, criada pela ONG Deep Belief Network.
    • A CNN (Convolutional Neural Network) é uma rede de neurônios envolvidos, que é uma rede de computadores de computadores.
    • Word2Vec (modelo de aprendizagem de vetores de palavras)
  • DimensionalityReduction (Reduzção de Dimensão):

    • LDA Linear Discriminant Analysis/Fisher Linear Discriminant Analysis/Fisher Linear Discriminant Analysis/Fisher Linear Discriminant Analysis, também conhecida como análise linear discriminante, é uma análise de dados que consiste em analisar os resultados obtidos através da análise de dados.
    • A PCA (Principal Component Analysis) é uma ferramenta de análise de componentes.
    • ICA (Análise de Componentes Independentes)
    • SVD (Singular Value Decomposition) é um sistema de decomposição de valores singulares.
    • FA (Factorial Analysis) Factor Analysis (Análise de fatores) Factor Analysis (Facção de análise) Factor Analysis (Facção de análise) Factor Analysis (Facção de análise) Factor Analysis (Facção de análise) Factor Analysis (Facção de análise) Factor Analysis) Factor Analysis (Facção de análise) Factor Analysis (Facção de análise) Factor Analysis) Factor Analysis (Facção de análise) Factor Analysis (Facção de análise) Factor analysis) Factor analysis (Facção de análise) Factor analysis (Facção de análise) Factor analysis) Factor analysis (Facção de análise) Factor analysis (Facção de análise) Factor analysis (Facção de análise) Factor analysis (Facção de análise) Factor analysis) Factor analysis (Facção de análise) Factor analysis (Facção de análise) Factor analysis (Facção de análise) Factor analysis) Factor analysis (Factor analysis) Factor analysis) Factor analysis (Factor analysis)
  • Text Mining (mineração de texto):

    • O VSM (Vector Space Model) é um modelo de espaço vetorial.
    • O Word2Vec (modelo de aprendizagem de vetores de palavras)
    • TF (Term Frequency)
    • TF-IDF (Term Frequency-Inverse Document Frequency) é um programa de pesquisa de documentos com frequência inversa.
    • O MI (MutualInformation) é um serviço de comunicação que fornece informações sobre o que acontece no mundo.
    • ECE (Expected Cross Entropy) é uma taxa de crescimento da entropia esperada.
    • O QEMI (quadro de informações secundárias)
    • IG (InformationGain) é um site de notícias da IG.
    • O IGR (Information Gain Ratio, taxa de ganho de informação) é um índice de crescimento da informação.
    • O Gini (Coeficiente Gini) é o valor de uma taxa de crescimento de um indivíduo.
    • A partir de agora, o número de pessoas que estão usando o aplicativo será de aproximadamente R$ 1 milhão.
    • TEW (TextEvidence Weight) é um projeto de lei que promove o direito à evidência textual.
    • A diferença entre os dois tipos é muito grande.
    • Modelo N-Gram,
    • A LSA (Latent Semantic Analysis) é uma ferramenta de análise de semântica latente.
    • PLSA (Probabilistic Latent Semantic Analysis, análise semântica latente baseada em probabilidade)
    • LDA (Latent Dirichlet Allocation, Modelo de Dirichlet Potencial de Dirichlet)
  • Associação de Mineração:

    • A priori,
    • FP-growth (Frequency Pattern Tree Growth) é um algoritmo de crescimento de árvores de padrão freqüente, desenvolvido pela FP.
    • AprioriAll,
    • Pico.
  • Recomendação Engine:

    • DBR (Demographic-based Recommendation) - Recomendação baseada em dados demográficos.
    • CBR (Context-basedRecommendation) Recomendações baseadas no conteúdo
    • CF (Filtragem colaborativa)
    • UCF (User-based Collaborative Filtering Recommendation) é um site de filtragem colaborativa baseado em usuários.
    • ICF (Item-based Collaborative Filtering Recommendation) Recomendações de filtragem colaborativa baseadas em projetos.
  • Similarity Measure&Distance Measure (Meia de similaridade e distância):

    • A distância euclidiana (distância europeia)
    • A distância de Manhattan é a distância entre a cidade de Manhattan e a cidade de Nova York.
    • Chebyshev Distance (Distância Chebyshev)
    • Minkowski Distance (Distância Minkowski)
    • Distância euclidiana padronizada
    • A distância de Mahalanobis (Distância de Marte)
    • Cos (cordas de cossinos)
    • HammingDistance/Edit Distance (Distância de Hamming/Distância de Edição)
    • A distância de Jaccard é a distância que o homem pode percorrer para alcançar o seu objetivo.
    • Distância do coeficiente de correlação
    • A informação entropia (Information Entropy) é uma ferramenta de comunicação que permite a criação de conteúdos.
    • KL (divergência de Kullback-Leibler)
  • Feature Selection (algorismo de seleção de características):

    • A informação mútua.
    • DocumentFrequence (Frequência de Documentos)
    • A informação ganha, a informação ganha.
    • O Chi-squared Test (teste do lado do caráter) é um teste de caráter geral.
    • Gini (Coeficiente Gini)
  • Outlier Detection (algoritmo de detecção de pontos de anomalias):

    • A partir daí, a empresa começou a produzir produtos de alta qualidade.
    • A distância baseia-se em:
    • Density-based (com base na densidade)
    • Clustering-based (com base em clusters)
  • Aprender a classificar:

    • Em termos puntuais:
    • Em pares: RankingSVM,RankNet,Frank,RankBoost;
    • Lista por ordem: AdaRank, SoftRank, LamdaMART.

Mais.