(9월11일~13일) 3일간 2차 미니프로젝트가 진행되었습니다!
그동안 배운 머신러닝과 딥러닝을 활용하여 진행한 프로젝트였습니다.
미세먼지 농도 예측 머신러닝 모델링이라는 미션을 부여받고 첫 날은 머신러닝 모델을 활용하여 모델링을 진행하였습니다.
개별로 모델링을 진행 후 조별로 모여 개인 미션 수행 내용에 대해 토론해보고 발표준비를 하는 시간이었습니다.
Tabular 데이터 csv 4개 파일을 활용하였습니다.
특히 Tabular 데이터를 활용할 때 도메인 지식이 중요합니다.
항상 모델링 전 코치님이 도메인을 친절히 설명해 주셔서 좋았습니다 :)
실..실은..이날은 제가 아파서 수업에 참여를 못한 날이었습니다 😥
(죄송합니다 . . 대가리 박습니다. . )
컨디션 조절도 공부하는데 중요하다는 걸 알았고 앞으로는 모든 팀 프로젝트에 열심히 참여할려고 합니다 ㅠ ㅠ 🤒
어쨌든
그래서 저희 팀이 수행한 내용을 담아보려 합니다╰(°▽°)╯
결측치 존재 여부
위 사진과 같이 결측치가 존재하는 것을 알 수 있었습니다.
Feature 간의 상관관계 확인
데이터 분석한 내용을 바탕으로 전처리를 수행하였습니다.
머신러닝 모델링 결과를 바탕으로 강우량 및 풍속이 미세먼지 농도와 큰 상관관계가 없다는 것을 알 수 있었습니다!
장애인 이동권 개선을 위한 장애인 콜택시 대기시간 예측 이란 주제로 2,3일차 미니프로젝트를 진행하였습니다. 전날은 머신러닝 모델링만 진행하였는데 이날은 머신러닝, 딥러닝 모델을 사용해서 대기시간을 가장 잘 예측하는 모델을 찾는 시간을 가졌습니다.
분당 교육장에서 만나 팀 프로젝트를 진행하였습니다 ㅎㅎ
주말보단 평일에 콜택시를 많이 사용하는 것을 알 수 있었습니다.
이외에도 여러 feature를 선택해서 단변량 분석을 진행했습니다.
의미있어보이는 feature를 중심으로 데이터 전처리 또한 수행하였습니다.
머신러닝
a. LinearRegression
선형 회귀 MAE: 4.703681588017373
선형 회귀 MAPE: 0.11303276102804356
b.RandomForestRegressor
random_forest MAE: 24.439670329670314
random_forest MAPE: 0.593381209438457
c.GradientBoostingRegressor
Gradient Boosting MAE: 5.006626606950025
Gradient Boosting MAPE: 0.12087269735140335
d.XGBRegressor
XGBoost MAE: 5.38509422134567
XGBoost MAPE: 0.13294136512428933
e.LGBMRegressor
LightGBM MAE: 4.958132005292762
LightGBM MAPE: 0.12176470900391703
딥러닝
MLP MAE: 5.261244310170096
MLP MAPE: 0.13967369274863423
실은 머신러닝과 딥러닝을 학부시절 거의 찍먹하듯이 배워서 자세히 알지 못했는데 이렇게 활용해보면서 더 이해를 할 수 있었던 것 같습니다.
모델의 성능을 높일 수 있도록 여러가지 삽질을 해봐야 실력도 늘 것 같습니다.