지도 학습은 입력과 출력에 대한 데이터 세트가 있고, 주어진 입력으로부터 출력을 예측하고자할 때 사용한다. 분류와 회귀로 나뉜다.
- 미리 정의된, 가능서있는 클래스 레이블 중 하나를 예측하는 것
- 두개의 클래스를 분류하는 이진분류(yes or no), 셋 이상의 클래스로 분류하는 다중 분류로 나뉜다.
- (eg.스팸메일인가?- 이진분류, 붓꽃데이터 분석-다중 분류)
- 연속적인 숫자:부동소수점수를 예측하는 것
- 분류에 비해 출력값에 연속성이 있다.
- 훈련데이터로 학습한 모델이 훈련 데이터와 특성이 같다면, 신규 데이터도 정확한 예측을 기대
- 신규데이터(테스트 세트)를 정확히 예측할 수 있다면, 훈련세트에서 테스트 세트로 일반화 된 것
- 모델이 적절한 복잡도를 갖도록 훈련데이터를 학습시킨 뒤 신규 데이터(테스트 세트) 정확히 예측하도록 설계하는 것이 목표
- 모델이 훈련 데이터에 너무 잘 적합되어 훈련 데이터에 대한 예측 정확도는 높지만, 새로운 데이터에 대한 예측 정확도가 낮아지는 현상
- 모델이 훈련 데이터에 과도하게 민감하게 학습되어 새로운 데이터에서는 일반화 능력이 떨어짐
과소적합(Underfitting)?
- 모델이 훈련 데이터에 너무 단순하게 적합되어 훈련 데이터에도 잘 맞지 않고, 새로운 데이터에 대해서도 성능이 낮아지는 현상
- 모델이 훈련 데이터를 충분히 학습하지 못해 훈련 데이터에서도 정확도가 낮아짐