[스마트인재개발원] 머신러닝 기초 & 지도학습(KNN)

Notice

Recent Posts

Recent Comments

Link

« 2025/12 »
일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

코딩몬

[스마트인재개발원] 머신러닝 기초 & 지도학습(KNN) 본문

Machine Learning

[스마트인재개발원] 머신러닝 기초 & 지도학습(KNN)

탄중이 2021. 6. 20. 18:27

지도학습 vs 비지도 학습

지도학습 process

비지도 학습 process

머신러닝(Machine Learning) 학습과정

문제정의

어떤 대상에 대해서 어떤 서비스를 할 것인지, 어떤 모델을 써야 할지, 어떤 학습방법을 선택할 것인지 등프로젝트 방향성에 대한 것을 결정내리는 것

Raw data 수집

날것 그대로의 데이터들을 수집하는 것(ex> 설문조사, 크롤링, 데이터베이스)

Data 전처리

수집한 데이터들을 다듬어 주는 과정, 전체 학습 과정의 70% ~ 80%가량 차지함

K-Nearest Neighbors(KNN) K-최근접 이웃 알고리즘

- 새로운 데이터 포인트와 가장 가까운 훈련 데이터셋의 데이터 포인트를 찾아 예측

- k값에 따라 가까운 이웃의 수가 결정

- 분류와 회귀에 모두 사용 가능

- k 값이 작을수록 모델의 복잡도가 상대적으로 증가(noise 값에 민감) => 과대적합

- k 값이 커질수록 모델의 복잡도가 낮아진다 => 과소적합

- 100개의 데이터를 학습하고 k를 100개로 설정하여 예측하면 빈도가 가장 많은 클래스 레이블로 분류

적은이웃 -> 과대적합 -> 데이터가 살짝만 달라져도 결정경계가 달라저 정확도 하락

많은이웃 -> 과소적합 -> 데이터가 달라져도 결정경계가 변하지 않아서 정확도 상승

KNN의 주요 매개변수(Hyperparameter)

1. 거리측정 방법

2. 이웃의 수

3. 가중치 함수

<scikit-learn의 경우>

metric : 유클리디언 거리 방식

n_neighbors : 이웃의 수

weight : 가중치 함수
- uniform : 가중치를 동등하게 설정
- distance : 가중치를 거리에 반비례하도록 설정

KNN의 장단점

- 이해하기 매우 쉬운 모델

- 훈련 데이터 세트가 크면(특성, 샘플의 수)예측이 느려진다

- 수백개 이상의 많은 특성을 가진 데이터 세트와 특성 값 대부분이 0인 희소(sparse)한 데이터 세트에는 잘 동작하지 않는다

- 거리를 측정하기 때문에 같은 scale로 정규화 필요

www.smhrd.or.kr

스마트인재개발원

4차산업혁명시대를 선도하는 빅데이터, 인공지능, 사물인터넷 전문 '0원' 취업연계교육기관

www.smhrd.or.kr

'Machine Learning' 카테고리의 다른 글

[스마트인재개발원] 인공지능 개념 (0)	2021.06.20

'Machine Learning' Related Articles

[스마트인재개발원] 인공지능 개념 2021.06.20

Comments

코딩몬

[스마트인재개발원] 머신러닝 기초 & 지도학습(KNN) 본문

[스마트인재개발원] 머신러닝 기초 & 지도학습(KNN)

지도학습 vs 비지도 학습

머신러닝(Machine Learning) 학습과정

K-Nearest Neighbors(KNN) K-최근접 이웃 알고리즘

KNN의 주요 매개변수(Hyperparameter)

KNN의 장단점

'Machine Learning' 카테고리의 다른 글

티스토리툴바