시리즈

ML에서 자주쓰는 코드

1.K-Fold Cross Validation

MAE, MSE, R2 스코어를 프린트해주는 Function이다.원하는 평가 지표에 따라 수정하여 사용한다.위에서 정의한 print_function의 스코어들을 계산하는 함수이다.원하는 스코어에 따라 사용하면 된다.만약 스코어의 평균값 뿐만 아니라 각 fold별 값을

2021년 12월 21일

2.Merge

Merge Merge by Index Merge by a Column Merge by Columns

2021년 12월 21일

3.Concat

Concat 서로 다른 두개의 데이터 하나의 데이터를 나누었다가 다시 합칠때

2021년 12월 21일

4.Imputation 성능 확인을 위한 Null 값 생성

Training set에는 missing value 가 없고 testing set에만 missing value가 존재 할 경우 testing set에 어떤 imputation 이 좋은지 모를 경우 training set에 null 값을 생성 후 성능 비교 후 testi

2021년 12월 21일

5.LGBM Regressor Optuna

Google Colab 환경에서 사용시 Optuna 를 설치해준다.library 설명OptunaLGBM Regressortrain and val splitEvaluation Score 어떠한 평가 지표를 사용하냐에 따라 바꿔준다.Optuna 를 활용하여 hyper pa

2021년 12월 22일

6.Cat Boost Regressor Optuna

Cat Boost Regressor에서 Optuna를 활용한 hyper parameter searching이 가능하다.LGBM이나 XG Boost에 비해 성능이 월등하게 올라가지는 않는다.Google Colab 환경에서 사용시 Optuna 를 설치해준다.Cat Boos

2021년 12월 22일

7.Time Series 전처리

Time series 데이터에서 year-mm-dd 형식의 값을 불러와 처리하는 과정Colab 에서 실행시 encoding='cp949'이 필요하다.train data에서 column명이 date인 year-mm-dd이 있다면 parse_dates='date'을 통해

2021년 12월 22일

8.DataFrame-한글파일 안깨지게 저장

csv 파일 작업 후 colab 환경에서 저장시 한글 파일의 경우 깨지는 현상이 생긴다.encoding='utf-8-sig' 을 통하여 한글 파일을 저장한다.

2022년 1월 3일

9.DataFrame-rename

특정 column의 이름 변경 시 rename을 활용하여 변경한다.두개 이상의 컬럼 값 변경

2022년 1월 3일

10.DataFrame-isnull을 활용한 결측치 출력

위의 데이터의 경우 '출석율' 이라는 컬럼에 결측치가 존재한다.만약 '출석율'이 결측치에 해당하는 데이터를 보고 싶은 경우 isnull을 활용하여 아래와 같이 출력 할 수 있다.

2022년 1월 3일

11.DataFrame-iloc를 활용하여 Column Drop

데이터의 컬럼의 범위를 지정하여 drop 할 경우 iloc를 활용한다.아래와 같이 iloc\[:, 이후에 원하는 drop 하고자 하는 컬럼의 범위를

2022년 1월 3일

12.DataFrame-str.slice

데이터 column값을 받았을 시 다음과 같이 숫자열 값이 str 형식으로 되어 있는경우가 있다.이와 같은 경우 column '출석율'의 분자 값과 분모 값을 가져와 숫자형으로 변환 후 값을 나누어 주어야 한다.이 때 str.slice를 활용하여 분모와 분자 값을 가져

2022년 1월 3일

13.두 개의 DataFrame 비교하기

두개의 DataFrame 비교하기

2022년 2월 16일