[TMI] GridSearchCV 11시간 넘기다

hyewon·2022년 2월 22일
0

오늘의 TMI

목록 보기
4/4
post-thumbnail

아침에 일어나자마자 교차 검증을 돌리고 바로 하이퍼파라미터 튜닝을 위해서 GridSearchCV를 실행시켜줬다.

물론 나는 욕심이 많아서 이것도 해보고 싶고, 저것도 해보고 싶고 하는 마음에 적당히를 모르고 대략 9개 정도의 파라미터와 값을 최소 2개에서 최대 5개까지 넣어줬다.

모델은 ExtraTreesClassifier를 사용했다. n_estimators가 100이었을 때 나름 학습 속도가 빨라서 튜닝을 할 때도 시간이 별로 안걸릴줄 알았는데 아니었다.

처음에 시작할 때는 오래 걸려봤자 2시간 정도로 예상했다. 그래서 점심을 미리 먹고 할 일을 생각하면서 이것저것 하고 돌아왔는데 아직도 안끝나서 어라 생각보다 오래 걸리네? 하는 생각이 들었다. 현재 통계 부분에 어려움을 겪고 있기 때문에 며칠 전 구입한 책을 한번 보고 와야지 했는데도 안끝났다.

하루종일 이 패턴의 반복이었다. 아 이거 하고 오면 끝나겠지 -> 어..안끝났네? -> 다른거 하고 와야지

그 결과..

따란..! 11시간이나 기다렸는데도 불구하고 중간에 스페셜 레처를 듣고 오니까 코랩 내에서 움직임이 없어서 그랬던건지..런타임이 끊겨있었다😂 처음에는 이해가 안되서 이유를 알아봤더니..코랩은 무료 버전을 사용할 경우 최대 런타임 12시간을 지원해주는데 움직임이 없을 경우 12시간보다 빠르게 끊긴다는 글을 봤다. 그 글을 보니까 그제서야 아..그래서였구나..싶었다.

이미 끊긴 런타임 뭐 어떻게 할 수가 없어서 혼자 살짝 고민을 했다. 프로젝트 마감은 금요일이고 하루를 더 하이퍼파라미터 튜닝에 쓰느냐, 하이퍼파라미터를 탐색하는 양을 줄일것이냐. 결론은 양을 줄이기로 했다.

최종적으로 탐색한 파라미터는 n_estimators, max_depth, min_sample_split, min_samples_leaf, ccp_alpha로 총 다섯가지에 대해서 탐색을 시도했다.

내일 그냥 수동으로 값을 조절할 생각으로 탐색할 값도 줄여서 총 3개의 값에 대해서 탐색했다.

그 결과 무려 1시간 56분만에 탐색이 완료됐고, 욕심이 과하면 망하는 지름길이라는 걸 오늘 뼈저리게 깨달았다. 하이퍼파라미터 탐색은 앞으로도 적당히 해줘야겠다 !!!

profile
우당탕탕 코린이

0개의 댓글