[DS 면접대비] 회귀 / 분류시 알맞은 metric은 무엇일까요? (회귀)

퐁이·2022년 6월 10일
0

Machine Learning

목록 보기
6/8

참고
데이터사이언스 인터뷰 질문모음

회귀(Regression)

회귀 문제에서는 실제 값과 모델이 예측하는 값의 차이에 기반을 둔 metric(평가)을 사용합니다. 대표적으로 RSS(단순 오차 제곱 합), MSE(평균 제곱 오차), MAE(평균 절대값 오차)가 있습니다.

  • RSS(단순 오차 제곱 합)

    • 실제 값과 예측 값의 단순 오차 제곱 합
    • 값이 작을수록 모델의 성능이 높다고 평가
  • MSE(평균 제곱 오차)

    • RSS를 데이터의 개수만큼 나눈 값
    • 값이 작을수록 모델의 성능이 높다고 평가
    • 오차에 제곱이 되기 때문에 Outlier(이상치) 잡아내는 데 효과적
    • 루트를 씌우면 RMSE
  • MAE(평균 절대값 오차)

    • 예측값과 실제값의 오차의 절대값의 평균
    • 값이 작을 수록 모델의 성능이 높다고 평가
    • 변동치가 큰 지표와 낮은 지표를 같이 예측하는 데 효과적
    • 루트를 씌우면 RMAE

평균을 그대로 이용하기 때문에 데이터의 크기에 의존한다는 단점 존재

  • R2R^2(결정계수)
    • 데이터의 크기에 의존한다는 단점 극복 가능
    • R2=1RSSTSSR^2=1-\frac{RSS}{TSS}
      • TSS는 평균 값과 실제 값 차이의 제곱
      • TSS=iN(yiy)2TSS=\displaystyle\sum_{i}^{N} (y^i-\overline{y})^2
    • R2R^2는 회귀 모델의 설명력을 표현하는 지표
    • 1에 가까울 수록 높은 성능의 모델
    • R2R^2 = 0이면 평균 값을 출력하는 직선 모델을 의미
profile
현. 게임 회사 데이터 분석가 및 과학자 - 데이터를 공부하는 사람입니다.

0개의 댓글