Scikit-learn 패키지 프레임워크 여러가지 머신러닝 모듈들 사이킷런 패키지에는 머신러닝을 위해 미리 만들어진 여러 모델들이 있다. 따라서 사용자는 이 중에서 하나 골라 좋은 데이터들을 넣어주고 학습시키면 손쉽게 머신러닝 모델을 사용할 수 있다. 사이킷런에서
머신러닝을 학습시키고 테스트에 사용하는 피처들이 이미 학습데이터에 들어있는 것과 겹친다면, 예측정확도가 1.0이 나오는 과적합(Overfitting) 오류를 범할 수 있다. 마치 모의고사를 여러 번 풀면서 연습했는데, 시험에서 모의고사 문제와 완전히 똑같은 문제가 나오
crossvalscore() 앞에서 K Fold, Stratified K Fold 이용하여 데이터들로 Decision Tree Classifier 모델을 학습시키고 교차검증하는 과정을 거쳤다. K Fold 혹은 Stratified K Fold 객체의 split 메소드
데이터 전처리 데이터 전처리가 왜 필요한가? Model -> Data dependency GIGO Null/NaN 처리 데이터 인코딩 데이터 스케일링 이상치 제거 > ## 인코딩(Encoding) 머신러닝 모델에 들어가는 데이터는 모두 숫자여야 한다. 레이블
스케일링은 머신러닝 모델을 학습시킬 때 더 효율적으로 할 수 있도록 하는 전처리 과정 중 하나이다. 학습을 위한 피처데이터에는 여러 종류의 데이터들이 있을 텐데, 각각의 피처데이터들은 서로 단위도 다르고, 스케일도 다르다. 그런데 이를 하나로 통일된, 즉 표준화 되고
Kaggle에 있는 타이타닉데이터링크 를 이용하여 지금까지 배운 내용으로 타이타닉 생존자 예측을 해보자. 데이터 전처리 Null 값 처리 불필요한 속성 제거 인코딩 모델 학습 및 검증 / 예측 / 평가 결정트리, 랜덤포레스트, 로지스틱 회귀 각각 비교. K Fol
정확도 모델이 분류, 그 중에서도 맞냐, 아니냐를 정하는 이진분류(Binaray Classfication)를 수행할 때 사용되는 대표적인 평가지표는 정확도(Accuracy) 정밀도(Precision) 재현율(Recall) 오차행렬(Confusion Matrix) F
정확도 외에 이진분류모델을 평가하는 다른 지표들에는 정밀도, 재현율, Confusion Matrix, F1 Score 등이 있다. 그 중 Confusion Matrix, 정밀도, 그리고 재현율에 대해 알아보자. > ## Confusion Matrix Confusi
정밀도는 예측모델이 Positive라고 예측한 것 중 실제와 일치하는 경우를 비율로 나타낸 값이고, TP/(TP+FP) 로 계산된다. 예를 들어, 예측모델이 100개의 메일을 스팸메일이라고 예측했는데 그 중 실제로 80개의 메일이 스팸메일이었다면, 이 모델은 80%의