정보관리기술사/AI

KNN(K-Nearest Neighbor/k-최근접 이웃 알고리즘)

기술기술 2024. 2. 6. 18:13

1. 정의

  • 신규 데이터(fingerprint)의 군집 할당을 위해 기존 모든 데이터와 신규 데이터 거리를 측정하여 최고 인접 다수결에 의해 군집할당하는 감독 학습 알고리즘

 

2. 특징 및 동작원리

가. 특징 -  최유레단N

  • 고인접 다수결 : 기존 데이터 중 가장 유사한 k개의 데이터를 측정하여 분류
  • 사도(거리) 기반 : 유클리디안 거리, 마할라노비스 거리, 코사인 유사도 등 활용
  • Lazy Learning 기법 :
    • 새로운 입력 값이 들어온 후 분류 시작
    • 데이터 셋을 저장만 하고 일반화된 모델을 능동적으로 만들거나 하지는 않음
    • 데이터가 들어온 후 분류 및 처리한다는 의미
  • 순 유연성 : 모형이 단순하며 파라미터의 가정이 거의 없음
  • NN(Nearest Neighbors) 개선 : 
    • KNN은 가장 근접한 k개의 데이터에 대한 다수결 내지 가중합계 방식으로 분류
    • NN의 경우는 새로운 항목을 분류할때 가잦ㅇ 유사한 instance를 찾아서 그와 같은 class에 일방적으로 분류 했기 때문에 잡음 섞인 데이터에는 성능이 좋지 못함

 

나. 동작원리  -   핑목거선클

 

3. 거리기반 알고리즘 개념  -  유마코

 

4. 활용방안  -  측선필고