Dataset(Train, Validation, Test)

.·2021년 10월 20일
0

Training Set

  • 모델 학습시에 쓰이는 dataset

Validation Set

  • 모델 학습중 모델의 성능을 검증하는데 쓰이는 dataset
  • 모델의 hyperparameter와 configuration을 tuning 하는데 쓰임(학습이 잘 되고 있는지)
  • validation set으로 모델 평가
  • 오버피팅 방지

Test Set

  • 학습 완료 후 모델을 테스트하는 분리된 dataset
  • 편향되지 않은 모델성능 평가지표 제공

How to split dataset

  • Hyperparameter
    • 많은 경우 : 큰 validation set 필요
    • 적은 경우 : 작아도 가능
    • 최적화 전략
  • data percentage
    • less training data : high variance in training, 학습시키기 부족
    • less testing/validation data : greater variance, 평가 metric이 적절한 모델 튜닝을 만들지 못한다.
  • 가장 흔히 쓰이는 비율

  • 데이터가 적을경우 cross-validation 사용

3 common pitfalls in the training data split

Low-quality training data

  • garbage in, garbage out
  • 고품질 데이터가 모델성능에도 좋은 영향을 미친다.
  • training dataset의 작은 차이에도 모델 성능에 많은 영향을 미침

Overfitting

  • training data에 너무 맞추면 보지 못한 validation/test set 에서 성능이 하락한다.

Overemphasis on Validation and Test Set metrics

  • 적절한 metric의 선택이 전반적 모델 성능 추적에 좋은 영향을 끼친다.

Reference

https://www.v7labs.com/blog/train-validation-test-set#train-validation-test

https://glassboxmedicine.com/2019/09/15/best-use-of-train-val-test-splits-with-tips-for-medical-data/

https://modern-manual.tistory.com/19

profile
http://s6820w.tistory.com/ 로 블로그 이전

0개의 댓글