분류 성능 평가 지표 : Classification

KingU·2022년 11월 27일
0

Algorithm

목록 보기
21/22

분류 성능 평가 지표 : Classification


종류

  • 정확도(Accuracy)

  • 오차행렬(Confusion Matrix)

  • 정밀도(Precision)

  • 재현율(Recall)

  • F1 스코어

  • ROC AUC






1. 정확도(Accuracy)

예측 결과가 동일한 데이터 건수 / 전체 예측 데이터 건수

이진 분류 데이터 구성인 경우 숫자 놀음이 될 수 있음
불균형한 레이블 값 분포에도 적합하지 않음






2. 오차 행렬(Confusion Matrix)

이진 분류의 예측 오류가 얼마인지와 어떤 유형의 오류가 발생하는지를 나타내는 지표

사분면의 지표를 가짐

  • True Negative(TN) - Negative O
  • False Negative(FN) - Negative X
  • False Positive(FP) - Positive X
  • True Positive(TP) - Positive O





3. 정밀도(Precision)와 재현율(Recall)

  • 정밀도: TP / (FP + TP)
    실제 양성인 것을 음성으로 판단하면 안됨
  • 재현율: TP / (FN + TP)

분류 결정 임곗값에 따라 Positive일 확률이 높아진다 -> 재현율 증가
Positive일 기준을 낮추는 것
precision_recall_curve() 함수를 통해 임곗값 제한 가능

향상 시키는 방법

  • 정밀도
    확실한 기준이 되는 경어만 Positive로 예측하고 모두 Negative로 예측
  • 재현율
    모든 케이스를 Positive로 예측





4. F1 Score

정밀도와 재현율을 결합한 지표
둘 중 어느 한쪽도 치우치지 않은 수치일 때 높은 값을 가짐
f1_score 함수를 통해 측정 가능






5. ROC 곡선과 AUC 스코어

  • ROC 곡선
    FPR(False Positive Rate)가 변할 때 TPR(True Positive Rate)의 변화 곡선
    FPR이 X축, TPR이 Y축에 위치
    성능 지표는 ROC 곡선 면적에 기반한 AUC(Are Under Curve) 값으로 결정
    1에 가까울수록 좋은 수치





Life is either a daring adventure or nothing at all. - Helen Keller
삶은 과감한 모험이거나 아니면 아무것도 아니다. - 헬렌켈러

profile
원하는 것을 창조하고 창조한 것을 의미있게 사용하자

0개의 댓글