데이터 수집/가공/ 변환 -> 모델 학습/예측 -> 모델 평가 -> 데이터 수집/가공/ 변환
반복
회귀 모델
예측 결과 : 연속된 변수 값
분류 모델
: 몇 가지 종류에서 값을 찾아내는 것
이진 분류 모델
: TP, FN, TN, FP(P가 1이고 N이 0이라고 생각하고 뒤에서부터 읽기)
분류 모델 평가
1) Accuracy : 전체 데이터 중 맞게 예측한 것의 비율
2) Precision : 양성이라고 예측한 것 중 실제 양성의 비율
3) Recall (tpr true positive ratio)
: 참인 데이터들 중에서 참이라고 예측한 것( 놓쳐서는 안될 것 확인할 때)
4) Fall-out : 실제 양성이 아닌데, 양성이라고 잘못 예측한 경우
-> 분류모델은 그 결과가 속할 확률 반환
5) f1-score : recall과 precision을 결합한 지표
6) ROC : fall-out 이 변할 때, recall의 변화 그린 그림
직선에 가까울 수록 머신러닝 모델의 성능이 떨어지는 것으로 판단
잘한 거 : thresold 기준으로 변화가 확실
7) AUC : ROC 곡선 아래의 면적 / 일반적으로 1에 가까울 수록 좋은 수치