과소 과대 적합
과적합(overfitting)
- 학습용 데이터에 완전히 적합
- 학습용 집합에서 잡음(noise)도 모형화하기 때문에 평가용 집합에서 전체 오차는 일반적으로 증가
모델 개발의 목적
- 학습용 Data에서는 높은 성과 => 평가용 Data에서는 낮은 성과 ( x )
- 현재 데이터의 설명 => 미래 데이터 예측 ( O )

과적합 문제
과소적합 ( 높은 편향 )
- 훈련, 검증 정확도 모두 낮음
- 데이터가 작거나 많이 돌리지 않았다.
과대 적합(높은 분산)
- 훈련 데이터에 비해 모델이 너무 복잡할 경우
- 너무 많이 훈련을 돌려 훈련 데이터에만 맞아지는 경우

-
학습곡선 (Learning Curve)
-
검증 곡선 (Validation Curve)
과적합 방지
성장 멈추기 (stopping Tree Growth)
- 나무 모델을 성장시키면서 특정 조건에서 성장을 중단
- 나무모델의 깊이 : 복잡도 파라미터
- 노드 내의 최소 관측치의 수
- 불순도의 최소 감소량
- CHAID 에서 사용
- 나무모델 생성시에 통계적으로 유의하지 않으면 종료
- 가지치기 사용하지 않고 종료
=================>>> 하지만 잘 안쓰인다.
가지치기 ( Pruning the Tree)
- 나무 모델 생성 후 필요없는 가지 제거
- 성장을 멈추기 보다 더 성능 우수
- C4.5 : 학습 데이터를 이용하여 나무 모델 성장과 가지치기에 사용
- CART : 학습 데이터는 나무모델 성장에, 검증 데이터는 가지치기에 사용
====> 처음부터 다 한 후 가지치기로 골라낸다.