범주형 데이터
결과가 0인지 1인 분류하는 것을 예측
분류 모델은 정확하게 예측한 비율을 기준으로 모델 성능을 평가한다.
분류 모델 평가에서는 정확도가 중요함.
예를 들어 정상인지 불량인지 분류할 때,
정상과 불량을 실제 사실과 비교할 때 얼마나 정확하게 분류했니?
수치형 데이터
회귀 모델은 수치를 예상하는 것이기에 정확도로 평가하지 않음.
예측값과 실제값의 차이가 적을수록 좋다고 평가함..
= 예측값과 실제값의 오차가 적을 수록 좋은 모델
내일 낮 12시에 호수 온도가 20도가 될 것이다 라고 예측했을 때,
예측한 값과 실제 내일 낮 12시 호수 온도의 값을 비교
머신러닝 결과로 원하는 목표 값이기도 함.
성능 평가할 경우 평가 기준.
얼마나 실제값(y)에 근접한 예측값(y^)인가?
머신러닝 알고리즘을 통해 산출된 예측값.
컴퓨터가 자신의 경험을 바탕으로 결과를 예측한 값.
예측값은 평균값보다 실제값에 근접해야 좋음.
실제값을 통해 가지고 있던 값으로 예측값의 마지노선이기도 함(아마도)
평균값보다는 머신러닝 알고리즘으로 예측한 예측값의 오차가 적어야 좋으니까!
오차는 실제값과 예측값 사이의 차이를 말한다.
그런데 값이 1개가 아닐 경우 해당하는 오차를 전부 나열하는 것은 의미가 없다.
때문에 오차의 평균을 구해야함.
오차 평균을 구하기 위해서는 오차의 합을 구해야 함.
그런데 오차는 음수, 양수 아주 다양하게 존재할 수 있음.
더하기만 할 경우 오차가 0인 경우 발생.
개별로 오차의 수치가 있지만 더할 경우 0이 된다? -> 오차가 없다?
말이 안됨. 그래서 아래의 방법을 사용한다.
Σ(y-ŷ)²
실제값 - 예측값 다 더해서 제곱해라
= 실제값과 예측값의 차이를 다 더해서 제곱
= 실제값과 예측값의 오차 합 제곱
Sum Squared Error = SSE = Σ(y-ŷ)²
Mean SSE = MSE = Σ(y-ŷ)² / n
Root MSE = RMSE = √Σ(y-ŷ)² / n
Σ|y-ŷ|
실제값 - 예측값의 절대값 다 더해
실제값과 예측값의 차이의 절대값을 다 더함
Mean Absolute Error = MAE = Σ|y-ŷ| / n
Mean Absolute Percentage Error = MAPE = (Σ|y-ŷ| / y) / n
Sum Squared Total = SST = 전체 오차
평균과 실제 데이터 간 오차
Sum Squared Regression = SSR = 전체 오차 안에서 회귀식이 줄인 오차
평균과 예측값 사이 오차
Sum Squared Error = SSE = 전체 오차 안에서 회귀식이 잡지 못한 오차
예측값과 실제값 사이 오차
MSE 표준화된 버전으로
전체 오차에서 회귀식이 잡은 오차 비율을 말한다.
평균값과 실제값 사이 전체 오차와
평균값과 예측값 사이 오차가 전체 오차와 동일하면 완벽한 모델 학습.
R² = 1
MSE = 0
평가에 필요한 라이브러리
sklearn
from sklearn.metrics import ~~
평가할 때 sklearn의 metrics 동일
MSE 실제값과 예측값 오차 제곱의 평균
RMSE 실제값과 예측값 오차 제곱의 평균의 루트
MAE 실제값과 예측값의 절대값의 평균
MAPE 실제값과 예특값의 절대값 평균의 비율
오차의 수치이므로 모두 작을 수록 좋음
R² 는 클수록 좋다. 1이면 완벽 학습
Confusion Matrix(오분류표)
Accuary(정확도) : 전체값에서 정확하게 예측한 값 비율
Precision(정밀도) : 1이라고 예측한 것들 중 실제로 1인 비율
긍정이라고 예측했는데 실제로 긍정이니?
Recall(재현율, 민감도) : 실제로 1인 것들 중 1이라고 예측한 비율
실제로 긍정인 것들 중에서 긍정일거라고 예측한 비율
Specificity(특이도) : 실제로 0인 것들 중 0이라고 예측한 비율
실제 부정인 것들 중에서 부정일거라고 예특한 비율
Precision(정밀도)와 Recall(재현율)의 조화평균
처음 경험한 용어들인데 다 비슷해서 너무 어렵게 느껴진다.
코딩하는 것과 데이터를 보는 것은 단순하지만
개념이 낯설어 바로 바로 와닿지 않는 기분이다.
그래서 오늘 수업 내용 정리도 용어 위주로 정리를 해보았다.
정리를 했음에도 아직 용어가 낯설게 느껴져 자주 보고 익숙해져야겠다.