Index

K - Nearest Neighbors , K- 최근접 이웃 알고리즘 이란 \* 데이터 분류 작업 에서 활용되는 기초가 되는 알고리즘이다.

새로운 입력으로 들어온 데이터를 특정값으로 분류하는데 현재 데이터와 가장 가까운 k개의 데이터를 찾아 가장 많은 분류 값으로 현재의 데이터를 분류하는 알고리즘이다.

아래는 k-최근접 이웃 알고리즘의 이해를 돕기 위한 사진이다.

* 가장 가까운 3개의 기존 데이터의 분류를 살펴본 결과 , B분류가 2개 A분류가 1개이므로 새로운 데이터 '별' 은 B분류로 할당

※ 데이터 분류란 새로운 데이터를 기존 데이터의 레이블 중 하나로 분류하는 작업을 의미한다.

가장 가까운 이라는 개념은 현실 세계와 같은 3차원 좌표값이 아닌 3이상의 N차원의 일반적인 데이터에 대해서는 어떻게 정의할까?

사실 3차원 이상의 데이터는 우리 눈으로 확인 가능한 형태로 표현할 수 없을 뿐 , 거리의 계산은 동일하게 벡터 공간에서 두 벡터의 유클리디안 거리를 기반으로 가깝고 멀다는 것을 구분하면 된다.

(x1,x2,…,xn) 의 값을 가지는 데이터와 (y1,y2,…,yn) 의 값을 가지는 데이터 사이 거리는 다음과 같이 나타낸다.

\[dist = \sqrt{(x_1-y_1)^2 + (x_2-y_2)^2 + \dots + (x_n-y_n)^2}\]

pros

cons

k-최근접 이웃 객체 생성

from sklearn.neighbors import KNeighborsClassifier
from sklearn.neighbors import KNeighborsRegressor

knn = KNeighbors(n_neighbors=k)

세부 파라미터 :

n_neighbors : 몇개의 최근접을 조사하여 데이터 분류를 할지 지정하는 옵션. 하나의 파라미터만 존재하므로 최적의 k 값을 찾는것이 중요하다. (k 의 변화에 따른 cross_val_score 그래프를 그리는 것이 일반적)

k-최근접 이웃 객체 학습

knn.fit(xdata,ylabel)

세부 내용 :

k-최근접 이웃 객체 예측

knn.predict(xtest)
knn.predict_proba(xtest)

세부 내용 :

새로운 입력 xtest 에 대하여 k 개의 최근접을 조사하고 데이터 분류를 진행
predict의 경우 최빈 , 혹은 과반수 이상인 레이블 값 하나를 반환하고 predict_proba 의 경우 각 분류 카테고리에 속할 확률들을 반환한다.

KNN 개념 정리 및 활용 (sklearn)