Classificateur Bayesian basé sur l'algorithme KNN

Auteur:Le petit rêve, Créé: 2017-01-14 17:23:19, mis à jour:

Classificateur Bayesian basé sur l'algorithme KNN

Les fondements théoriques de la conception d'un classement pour la prise de décision de classement:

Comparer P (ωi) x; oùωi est la classe i, x est une donnée à observer et à classer, P (ωi) x indique quelle est la probabilité de juger qu'elle appartient à la classe i dans le cas où le vecteur caractéristique de cette donnée est connu, ce qui devient également la probabilité postérieure. Selon la formule de Bayes, elle peut être exprimée comme suit:

img

Parmi elles, P (x) est appelée probabilité de ressemblance ou probabilité des conditions de classe; P (ω) est appelée probabilité antérieure car elle n'a rien à voir avec l'expérience et peut être connue avant l'expérience.

Lors de la classification, on peut choisir la catégorie qui donne la plus grande probabilité d'expérience P (x) pour une variable x; on peut donc supprimer P (x) sans y tenir compte.

Le résultat final est donc de calculer P (x) x (ωi) * P (ωi). La probabilité préliminaire P ((ωi) est bonne, à condition que la formation statistique concentre la proportion de données qui apparaissent sous chaque catégorisation.

Le calcul de la probabilité similaire P (x ∈ O) doit être décomposé, car x est la donnée de l'ensemble d'essais et ne peut pas être obtenue directement à partir du jeu d'entraînement. Nous devons alors trouver la loi de distribution des données d'entraînement pour obtenir P (x ∈ O).

L'algorithme de proximité k est présenté ci-dessous.

Nous devons adapter la distribution de ces données sous la catégorie Ωi en fonction des données x1, x2...xn (dont chacune est de dimension m) dans le groupe d'entraînement.

Nous savons que lorsque la quantité de données est suffisamment grande, on peut utiliser une probabilité approximative proportionnelle. Utiliser ce principe pour trouver les k points de l'échantillon les plus proches du point x, où il y a des ki de catégorie i. Calculer le volume V de la plus petite supersphère entourant ces k points d'échantillon; ou encore trouver le nombre d'individus de catégorie ωi dans tous les données de l'échantillon Ni:

img

Vous pouvez voir que ce que nous avons calculé est en fait la densité de probabilité des conditions de classe au point x.

P (ωi) c'est quoi? Selon la méthode ci-dessus, P ((ωi) = Ni/N ⋅ où N est le nombre total d'échantillons ⋅. En outre, P ((x) = k/ ((N*V), où k est le nombre de points de l'échantillon entourant le supersphère; N est le nombre total d'échantillons. On peut alors calculer P (ωi x) en ajoutant la formule, ce qui est facile à trouver:

P(ωi|x)=ki/k

Expliquez la formule ci-dessus, dans un supersphère de la taille de V, on entoure k échantillons, dont il y a ki qui appartiennent à la classe i. Ainsi, le plus grand nombre d'échantillons entourés, on détermine à quelle classe x doit appartenir. C'est un classement conçu avec l'algorithme de proximité de k.


Plus de