성능 평가 지표

Apic·2025년 7월 26일
0

코딩

목록 보기
31/31

성능 평가 지표란

  • 학습 모델이 얼나마 정확한지, 그것을 평가하는데 사용.

종류

평가 지표에는 여러가지가 있다. 그리고 그 지표를 계산하기 위해 혼동 행렬을 만든다.

  • 혼동 행렬(Confusion Matrix): 성능을 좀 더 세분화 해서 직관적으로 통찰할 수 있도록 행렬 형태로 만든다.
NegetivePositive
TrueTNTP
FalseFNFP

ex) 머리카락 100개가 있고 여기서 흰머리만 뽑아야 한다.
이중 흰 머리카락는 10개고 검은머리카락는 90개다.
검은머리카락을 80개, 흰 머리카락을 20개라고 예측했다.

TP(True Positive): 맞다고 예측했는데 실제로도 올바른 경우.
TN(True Negative): 아니라고 예측했는데 실제로는 올바른 경우.
FP(False Positive): 맞다고 예측했는데 실제로는 아닌 경우.
FN(False Negataive): 아니라고 예측했는데 실제로도 아닌 경우.

  • 정확도(Accuracy): 전체적으로 얼마나 맞췄는가
    올바르게 예측한 데이터(TP + TN): 검은 머리카락 80개, 흰 머리카락 10개 = 90개
    올바르게­ 예측된­ 데이터­ 수전체­ 데이터­ 수­ TP+TNTP+TN+FP+FN­ 90100=90\frac{올바르게­ 예측된­ 데이터­ 수}{전체­ 데이터­ 수}\\ ­ \\ \frac{TP+TN}{TP+TN+FP+FN}\\ ­ \\ \frac{90}{100} = 90% \\

전체 데이터 중에서 그것이 좋은거든 않좋은거든 옳바르게 분류한 비율을 의미한다.

  • 정밀도(Precision): 흰 머리라고 예측한 것들 중에서 실제로 흰 머리인 비율
    실제로 맞은 데이터(TP): 흰 머리카락 10개
    맞다고 예측한 데이터(TP+FP): 흰 머리카락 20개

    실제로­ 맞은­ 데이터­ 수맞다고­ 예측한­ 데이터­ 수­ TPTP+FP­ 1020=50\frac{실제로­ 맞은­ 데이터­ 수}{맞다고­ 예측한­ 데이터 ­ 수}\\ ­ \\ \frac{TP}{TP+FP}\\ ­ \\ \frac{10}{20} = 50%
  • 재현율(Recal) = 민감도(Sensitivity): 실제 흰 머리를 얼마나 잘 찾아냈는가
    맞다고 예측한 데이터 수(TP): 흰 머리카락 20개
    실제로 올바른 데이터 수(TP+FN): 흰 머리카락 10개

    맞다고­ 예측한­ 데이터­ 수실제로­ 올바른­ 데이터­ 수­ TPTP+FN­ 2010=100\frac{맞다고­ 예측한­ 데이터­ 수}{실제로­ 올바른­ 데이터­ 수}\\ ­ \\ \frac{TP}{TP+FN}\\ ­ \\ \frac{20}{10} = 100%

재현율과 정밀도 모두 TP(True Positive)를 높이는데 초점을 맞추지만, 재현율은 FN(실제 Positive 한 것을 negative로 예측)한 것을 낮추는데, 정밀도는 FP를 낮추는데 초점을 맞춘다.
이와 같은 특성 때문에 재현율과 정밀도는 서로 보완적인 지표로 분류 성능을 평가하는 데 사용되는데, 이때 어느 한쪽을 강제로 높이면 다른 하나의 수치는 떨어지기 쉬워진다. 이를 정밀도/ 재현율은 트레이트 오프(Trade-off) 관계에 있다고 한다.

  • F1 Score
    F1 점수는 정밀도와 재현율의 조화 평균을 나타내는 지표로 두 지표를 동시에 고려할 때 사용한다.
    한 쪽에 치우치지 않고 두 지표간의 균형을 맞추고 있을 때 높은 값을 가진다.
    검은 머리카락을 흰 머리카락으로 착각하여 뽑지 않도록 할 때 사용한다.
profile
코딩 공부하는 사람

0개의 댓글