Bayes-Classifier auf Basis des KNN-Algorithmus

Schriftsteller:Kleine Träume, Erstellt: 2017-01-14 17:23:19, aktualisiert:

Bayes-Classifier auf Basis des KNN-Algorithmus

Die theoretische Grundlage für das Design von Klassifikatoren, um Klassifizierungsentscheidungen zu treffen, ist die Debayese-Entscheidungstheorie:

Vergleicht man P (ωi) x; wobeiωi die Klasse i ist und x eine Datenmenge ist, die beobachtet und klassifiziert werden soll, gibt P (ωi) x die Wahrscheinlichkeit an, dass diese Datenmenge in die Klasse i gehört, wenn die Eigenschaftsvektoren dieser Daten bekannt sind.

img

Hierbei wird P (x) als ähnliche Wahrscheinlichkeit oder als Klassenbedingungen-Wahrscheinlichkeit bezeichnet; P (ω) wird als vorherige Wahrscheinlichkeit bezeichnet, da sie unabhängig von der Versuchsphase ist und vor der Versuchsphase bekannt ist.

Bei der Klassifizierung kann die Kategorie gewählt werden, bei der die Spätwahrscheinlichkeit P (ωi) x am größten ist. Bei jedem Vergleich ist P (ωi) x groß, wobeiωi eine Variable und x ein Festwert ist.

Das Ergebnis ist die Frage, wie man P (x) * P (ωi) berechnet. Die Vorabwahrscheinlichkeit P ((ωi) ist gut, wenn man sich mit dem Anteil der Daten, die unter jeder Klassifikation auftreten, statistisch trainiert.

Die Berechnung der vergleichbaren Wahrscheinlichkeit P (x ∈ O i) ist umgekehrt, da dieses x die Daten der Testmenge ist, die nicht direkt aus der Trainingsmenge gewonnen werden kann. Dann müssen wir die Verteilungsregeln der Trainingsmenge finden, um P (x ∈ O i) zu erhalten.

Hier ist ein kurzer Überblick über die k-Nachbarschaftsalgorithmen.

Wir müssen die Verteilung dieser Daten unter der Kategorieωi anpassen, basierend auf den Daten x1, x2...xn (jeweils m-dimensionale Daten) aus dem Trainingszentrum.

Wir wissen, dass, wenn die Datenmenge groß genug ist, eine verhältnismäßige Annäherungswahrscheinlichkeit verwendet werden kann. Wir können dieses Prinzip nutzen, um herauszufinden, welche k Probenpunkte in der Nähe von Punkt x zu finden sind, von denen es Ki-Punkte in der Kategorie i gibt. Wir können das Volumen V der kleinsten Superspiele berechnen, die diese k Probenpunkte umgeben.

img

Sie können sehen, dass wir tatsächlich die Wahrscheinlichkeitsdichte der Klassenbedingungen am Punkt x berechnet haben.

Was ist mit P (ωi)? Nach der oben beschriebenen Methode ist P ((ωi) = Ni/N. Hierbei ist N die Gesamtzahl der Proben. Außerdem ist P ((x) = k/ ((N*V), wobei k die Anzahl aller Probenpunkte ist, die dieses Superspiele umgeben; N ist die Gesamtzahl der Proben. Dann kann man P (ωi) berechnen: Wenn man die Formel einfügt, kann man leicht sagen:

P(ωi|x)=ki/k

Die Formel wird weiter erläutert, dass in einem Supersphärengebiet von der Größe V k Proben umgeben sind, von denen es ki gibt, die zur Klasse i gehören. So können wir feststellen, welcher Typ von Proben am meisten umgeben ist und zu welcher Klasse x gehören sollte. Dies ist ein Klassifikator, der mit k-Nachbarschaftsalgorithmen entwickelt wurde.


Mehr