모델 평가와 하이퍼파라미터 고르기

BaekGeonwoo·2022년 7월 10일
0

머신 러닝

목록 보기
10/14

k겹 교차 검증(k-fold Cross Validation)

  • 머신 러닝 모델의 성능을 더 정확하게 평가할 수 있는 방법
  • 모델 성능 평가가 운에 따라 좌지우지 되는 것을 막기 위해서 k겹 교차 검증을 사용한다.
    (운 좋게 test set에서만 성능이 좋게 나오는 등의 현상을 막기 위함)
  • 모델을 여러 개의 다른 데이터로 테스트 하기 때문에 평가의 신뢰도\uparrow
  • 데이터를 k개로 나누고 그중 하나를 test set으로 하고 나머지를 train set으로 하여 머신 러닝을 k번 진행하여 그 평균 성능을 모델의 성능으로 판단한다.
  • k 값을 다르게 설정해도 되지만 일반적으로 k=5를 사용한다.

하이퍼파라미터(Hyperparameter)

  • 머신 러닝 모델에서 학습을 하기 전에 미리 정해 줘야 하는 변수 또는 파라미터
  • Lasso 모델의 alpha, max_iter, 로지스틱 회귀 모델의 solver 등
  • 하이퍼파라미터에 따라서 성능에 큰 차이가 있을 수 있다.
  • 좋은 하이퍼파라미터를 고르기 위한 방법
  • 격자(grid)를 만들고 성능이 가장 좋은 하이퍼파라미터 조합을 찾는(search) 방법이기 때문에 grid search
  1. 하이퍼파라미터 후보 값을 몇 개씩 정한다.
  2. 모든 후보 값의 조합으로 모델을 학습시켰을 때 성능이 가장 좋았던 하이퍼파라미터 조합을 고른다.
    Grid Search\rightarrow 최적의 하이퍼파라미터: tol = 1e-4, alpha = 1

이 글은 코드잇 강의를 수강하며 정리한 글입니다. 더 자세한 설명은 코드잇을 참고하세요

코드잇 머신 러닝

profile
미래의 개발자입니다!

0개의 댓글