출처: https://github.com/dream-ellie/regex|Character|뜻|\|:----------:\|:----------\||||또는||()|그룹||\[]|문자셋, 괄호안의 어떤 문자든||^|부정 문자셋, 괄호 안의 어떤 문자가 아닐때|
초기 중심값에 민감(랜덤하게 부여하기 때문에) \- K-menas++초기 중심점 선정의 어려움을 해결하기 위한 방법실제 레코드(데이터포인트)를 초기 중심점 선정에 활용K-means 주요 파라미터인 init (default : k-means++)MiniBatchkMea
특징 \- 이상치에 강한 모델임 \-tree를 분리하는 과정에서 feature selection이 자동으로 사용됨 \- 연속형과 범주형 변수를 모두 다루기 때문에 사전 데이터 준비가 많이 필요하지 않다 \- 결측값을 하나의 가지로 다룰 수 있기 때문에 이를 예측에
평가지표가 accuracy, recall, precision 등일 경우 but 권장 안함, 시간이 너무 오래 걸림 평가지표가 roc-auc, logloss 등일 경우 사용 산술평균, 기하평균, 조화평균, 멱평균(power mean)ML_1030_02_power_mean
ML_1016_01_feature_engineering.ipynb6 Different Ways to Compensate for Missing Values In a Dataset
model_tuningfrom sklearn.model_selection import GridSearchCVfrom sklearn.model_selection import RandomizedSearchCVGrid Search와 Random Search는 이전까지의 조사
scikit-learn은 class(y)와 feature(X)로 데이터의 열이 구분되어야 한다.scikit-learn은 모든 feature가 숫자로만 구성되어야 한다.scikit-learn은 결측값이 있는 feature를 사용할 수 없다.
모든 열의 이름을 받아 수직으로 재구성stack하려면 set_index를 먼저 해줘야한다. 번호 인덱스이면 안됨 melt_result