Data Mining : 대용량의 데이터를 수집하고, 유의미한 데이터를 만들어냄
기존의 알고리즘 :
모델(알고리즘)에 학습을 시킨다
문제점
예)스팸메일분류, 집 가격예측
K-최근접이웃알고리즘
기존 훈련데이터에서 k와 근접한 값을 찾아서 예측하는것
예)
1과 1이 만났을 때만 1이 되는 AND연산
pandas import
X : 문제(대문자 X를쓴다-약속)
y : 정답
데이터프레임에서 슬라이싱해서 각 변수에 담아줌
sklearn : 파이썬에서 머신러닝 분석을 유용하게 사용되는 라이브러리, 여러가지 머신러닝 모듈로 구성됨
정답을 분류하기 때문에 Classifier
성능 측정 라이브러리 metrics
모델 객체 생성
fit에 문제, 정답순으로 넣기
예측할 값을 넣어주는 .predict()
확인해보면
실제값을 변수에 담아주고
metrics.accuracy_score ()안에 매개변수로 실제값, 예측된 값을 넣어서 잘 나오는 지 확인해본다
accuracy_score() : 정답률 ( =정확도 ) 실제 데이터 중 맞게 예측한 데이터의 비율
만약 n_neighbors=2 일때 (사진 잘못씀 ㅎ)
weight 없이 n_neighbors=2를 주면 0.3333 이되고
weight을 distance로 주면 가까운 값을 찾게되므로 값이 잘 나옴 (가까운 k=2가 됨)-->사진참조
-장단점
훈련데이트 세트가 클수록 거리계산이 많아져서 예측 느려짐