모델평가
모델 평가의 개념

-
모델을 좋다 나쁘다 등으로 평가할 방법은 없다
-
대부분 다양한 모델, 다양한 파라미터를 두고, 상대적으로 비교
-
회귀모델들은 실제 값과의 에러치를 가지고 계산
-
분류 모델의 평가 항목이 조금 많음
- 정확도 Accuracy
- 오차행렬 Confusion Matrix
- 정밀도 Precision
- 재현율 Recall
- F1 score
- ROC AUC
-
이진 분류 모델의 평가
- TP True Positive : 실제 Positive를 Positive라고 맞춘 경우
- FN False Negative : 실제 Positive를 Negative라고 틀리게 예측한 경우
- TN True Negative : 실제 Negative를 Negative라고 맞춘 경우
- FP False Positive : 실제 Negative를 Negative라고 틀리게 예측한 경우
-
분류모델은 그 결과를 속할 비율(확률)을 반환한다.

-
Recall과 Precision은 서로 영향을 주기 때문에 한 쪽을 극단적으로 높게 설정해서는 안된다.
-
F1-score은 Recall과 Precision을 결합한 지표
-
Recall과 Precision이 어느 한 쪽으로 치우치지 않고 둘다 높은 값을 가질 수록 높은 값을 가짐
ROC / AUC
-
ROC 곡선

-
AUC 곡선

ROC 커브 그리기



Basic Regression
Linear Regression
만약 주택의 넓이와 가격이라는 데이터가 있고 주택 가격을 예측한다면
- 학습 데이터 각각에 정답(주택 가격)이 정해져 있으므로 지도학습이며,
- 주택 가격을 연속된 값으로 예측하는 것이므로 회귀 문제이다.
선형회귀
- 입력변수(특징) x가 하나인 경우, 선형회귀 문제는 주어진 학습데이터와 가장 잘 맞는 가설 함수 h를 찾는 문제가 된다.
OLS : Ordinary Linear Least Square


잔차 평가 residue
- 잔차는 평균이 0인 정규분포를 따르는 것이어야 함
- 잔차 평가는 잔차의 평균이 0이고 정규분포를 따르는지 확인


결정계수 R-Squared
- y_hat은 예측된 값
- 예측값과 실제값(y)이 일치하면 결정계수는 1이된다.( 즉 결정계수가 높을수록 좋은 모델)

통계적 회귀





# pairplot으로 경향확인
plt.figure(figsize=(12,6))
sns.pairplot(data=data)



Cost Function

Cost Function


Boston 집값 예측








Logistic Regression
- 분류 문제로 사용
- 분류 문제는 0또는 1로 예측해야 하나 Linear Regression을 적용하면 0보다 작거나 1보다 큰 값을 가질 수 있다.
코드는 github 확인
Precision and Recall
코드는 github 확인
앙상블 기법
- 여러 개의 분류기를 생성하고 그 예측을 결합하여 정확한 최종 예측을 기대하는 기법
머신러닝 요약
