KNN 알고리즘에 기반한 베이스 분류기

저자:작은 꿈, 2017-01-14 17:23:19, 업데이트:

KNN 알고리즘에 기반한 베이스 분류기

분류기를 설계하여 분류 결정을 내리는 이론적 기초 베이스 의사 결정 이론:

비교 P (ωi) 는 class i, x는 관찰되고 분류해야 하는 데이터의 경우, P (ωi) 는 data의 특징 벡터에 대해 알려진 경우에 class i에 속하는 것을 판단하는 확률을 나타냅니다. 이는 Bayesian 공식에 따라 다음과 같이 나타낼 수 있습니다.

img

그 중 P (x) 는 유사 확률 또는 계층 조건 확률로 불리며, P (ω) 는 실험과 관련이 없기 때문에 실험 전에 알 수 있기 때문에 전의 확률로 불린다.

분류할 때, x를 주어진 경우에, 후연 확률 P (ωi) 를 x로 가장 큰 범주를 선택할 수 있다. 각각의 범주를 비교할 때, P (ωi) 는 변수이고, x는 고정되어 있다. 따라서 P (ωi) 를 무시할 수 있다.

그래서 결국 P (x) 를 계산하는 문제로 결론을 내릴 수 있습니다. 사전 확률 P ((ωi) 는 통계 훈련을 통해 각 분류에 나타나는 데이터의 비율을 집중시킬 수 있을 때 좋습니다.

유사 확률 P (x) 를 계산하는 것은 매우 어렵고, 왜냐하면 x는 테스트 집합의 데이터이기 때문에 훈련 집합에 따라 직접 추출할 수 없기 때문입니다. 그러면 우리는 훈련 집합의 데이터의 분포 법칙을 찾아야 합니다. 그러면 우리는 P (x) 를 얻을 수 있습니다.

아래는 k 근교 알고리즘, 영어 KNN이다.

우리는 x1,x2...xn (이들 중 각 데이터가 m 차원) 의 훈련 집합의 데이터 x1,x2...xn (이들 중 각 데이터가 m 차원) 에 따라, 범주ωi 아래에서, 이러한 데이터의 분포를 맞추어야 한다. x를 m 차원 공간의 임의한 점으로 설정하면, 어떻게 P (xωi) 를 계산할 수 있는가?

우리는 데이터가 충분히 크면 비율적 근사 확률을 사용할 수 있다는 것을 알고 있다. 이 원리를 이용하여 x점 주변에서 x점으로부터 가장 가까운 k개의 표본점을 찾아내어, 그 중 i 범주에 속하는 ki가 있는 것을 알아내어. 이 k개의 표본점을 둘러싸고 있는 가장 작은 초구름의 부피 V를 계산한다. 또는 모든 표본 데이터에서 ωi 범주에 속하는 Ni의 개수를 찾아내어:

img

그리고 여러분이 볼 수 있듯이, 우리가 계산한 것은 실제로 x점에서의 클래스 조건의 확률 밀도입니다.

P (ωi) 는 어떻게 되죠? 위의 방법으로, P ((ωi) = Ni/N ᅳ 여기서 N는 샘플 총수이다. 또한, P (x) = k/ (N*V), 여기서 k는 이 초구성을 둘러싸고 있는 모든 샘플 점의 개수; N는 샘플의 총수이다. 그럼 P (ωi x) 는 계산할 수 있습니다: 공식을 가져와서 쉽게 구할 수 있습니다:

P(ωi|x)=ki/k

이 식을 더 설명하자면, V 크기의 초구체 안에 k개의 표본이 둘러싸여 있고, 그 중에서 i 계열에 속하는 표본이 ki가 있다. 이렇게, 어떤 표본이 가장 많이 둘러싸여 있는지, 우리는 여기서 x가 어떤 계열에 속해야 하는지 결정한다. 이것은 k 인접 알고리즘으로 설계된 분류기이다.


더 많은