반응형
Notice
Recent Posts
Recent Comments
Link
«   2025/12   »
1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30 31
Tags more
Archives
Today
Total
관리 메뉴

코딩몬

[스마트인재개발원] 머신러닝 기초 & 지도학습(KNN) 본문

Machine Learning

[스마트인재개발원] 머신러닝 기초 & 지도학습(KNN)

탄중이 2021. 6. 20. 18:27
반응형

지도학습 vs 비지도 학습

지도학습 process

 

비지도 학습 process

 

머신러닝(Machine Learning) 학습과정

문제정의 

어떤 대상에 대해서 어떤 서비스를 할 것인지, 어떤 모델을 써야 할지, 어떤 학습방법을 선택할 것인지 등프로젝트 방향성에 대한 것을 결정내리는 것

 

Raw data 수집

날것 그대로의 데이터들을 수집하는 것(ex> 설문조사, 크롤링, 데이터베이스)

 

Data 전처리

수집한 데이터들을 다듬어 주는 과정, 전체 학습 과정의 70% ~ 80%가량 차지함

 

 

 

K-Nearest Neighbors(KNN) K-최근접 이웃 알고리즘

- 새로운 데이터 포인트와 가장 가까운 훈련 데이터셋의 데이터 포인트를 찾아 예측

- k값에 따라 가까운 이웃의 수가 결정

- 분류와 회귀에 모두 사용 가능

- k 값이 작을수록 모델의 복잡도가 상대적으로 증가(noise 값에 민감) => 과대적합

- k 값이 커질수록 모델의 복잡도가 낮아진다 => 과소적합

- 100개의 데이터를 학습하고 k를 100개로 설정하여 예측하면 빈도가 가장 많은 클래스 레이블로 분류

   적은이웃 -> 과대적합 -> 데이터가 살짝만 달라져도 결정경계가 달라저 정확도 하락

   많은이웃 -> 과소적합 -> 데이터가 달라져도 결정경계가 변하지 않아서 정확도 상승

 

 

 

KNN의 주요 매개변수(Hyperparameter)

1. 거리측정 방법

2. 이웃의 수

3. 가중치 함수

 

<scikit-learn의 경우>

metric : 유클리디언 거리 방식

n_neighbors : 이웃의 수

weight : 가중치 함수
 - uniform : 가중치를 동등하게 설정
 - distance : 가중치를 거리에 반비례하도록 설정

 

 

 

 

KNN의 장단점

- 이해하기 매우 쉬운 모델

- 훈련 데이터 세트가 크면(특성, 샘플의 수)예측이 느려진다

- 수백개 이상의 많은 특성을 가진 데이터 세트와 특성 값 대부분이 0인 희소(sparse)한 데이터 세트에는 잘 동작하지 않는다

- 거리를 측정하기 때문에 같은 scale로 정규화 필요

 

 

www.smhrd.or.kr

 

스마트인재개발원

4차산업혁명시대를 선도하는 빅데이터, 인공지능, 사물인터넷 전문 '0원' 취업연계교육기관

www.smhrd.or.kr

 

반응형

'Machine Learning' 카테고리의 다른 글

[스마트인재개발원] 인공지능 개념  (0) 2021.06.20
Comments