성능 평가 지표란
- 학습 모델이 얼나마 정확한지, 그것을 평가하는데 사용.
종류
평가 지표에는 여러가지가 있다. 그리고 그 지표를 계산하기 위해 혼동 행렬을 만든다.
- 혼동 행렬(Confusion Matrix): 성능을 좀 더 세분화 해서 직관적으로 통찰할 수 있도록 행렬 형태로 만든다.
| Negetive | Positive |
---|
True | TN | TP |
False | FN | FP |
ex) 머리카락 100개가 있고 여기서 흰머리만 뽑아야 한다.
이중 흰 머리카락는 10개고 검은머리카락는 90개다.
검은머리카락을 80개, 흰 머리카락을 20개라고 예측했다.
TP(True Positive): 맞다고 예측했는데 실제로도 올바른 경우.
TN(True Negative): 아니라고 예측했는데 실제로는 올바른 경우.
FP(False Positive): 맞다고 예측했는데 실제로는 아닌 경우.
FN(False Negataive): 아니라고 예측했는데 실제로도 아닌 경우.
- 정확도(Accuracy): 전체적으로 얼마나 맞췄는가
올바르게 예측한 데이터(TP + TN): 검은 머리카락 80개, 흰 머리카락 10개 = 90개전체 데이터 수올바르게 예측된 데이터 수 TP+TN+FP+FNTP+TN 10090=90%
즉 전체 데이터 중에서 그것이 좋은거든 않좋은거든 옳바르게 분류한 비율을 의미한다.
-
정밀도(Precision): 흰 머리라고 예측한 것들 중에서 실제로 흰 머리인 비율
실제로 맞은 데이터(TP): 흰 머리카락 10개
맞다고 예측한 데이터(TP+FP): 흰 머리카락 20개
맞다고 예측한 데이터 수실제로 맞은 데이터 수 TP+FPTP 2010=50%
-
재현율(Recal) = 민감도(Sensitivity): 실제 흰 머리를 얼마나 잘 찾아냈는가
맞다고 예측한 데이터 수(TP): 흰 머리카락 20개
실제로 올바른 데이터 수(TP+FN): 흰 머리카락 10개
실제로 올바른 데이터 수맞다고 예측한 데이터 수 TP+FNTP 1020=100%
재현율과 정밀도 모두 TP(True Positive)를 높이는데 초점을 맞추지만, 재현율은 FN(실제 Positive 한 것을 negative로 예측)한 것을 낮추는데, 정밀도는 FP를 낮추는데 초점을 맞춘다.
이와 같은 특성 때문에 재현율과 정밀도는 서로 보완적인 지표로 분류 성능을 평가하는 데 사용되는데, 이때 어느 한쪽을 강제로 높이면 다른 하나의 수치는 떨어지기 쉬워진다. 이를 정밀도/ 재현율은 트레이트 오프(Trade-off) 관계에 있다고 한다.
- F1 Score
F1 점수는 정밀도와 재현율의 조화 평균을 나타내는 지표로 두 지표를 동시에 고려할 때 사용한다.
한 쪽에 치우치지 않고 두 지표간의 균형을 맞추고 있을 때 높은 값을 가진다.
검은 머리카락을 흰 머리카락으로 착각하여 뽑지 않도록 할 때 사용한다.