프로젝트 주제 및 선정 배경
주말을 포함한 연휴가 제주도 대중교통 이용량에 영향을 미칠지 분석
프로젝트 개요
2019년 9월 12~14일 추석과 2019년 9월 주말의 대중교통 이용량에 영향을 미치는지에 대해 분석
2019년 10월의 개천절, 한글날과 10월 주말이 대중교통 이용량에 동일한 영향을 미치게 될지 예측
활용 장비 및 재료(개발 환경 등)
Language : Python
Server : Naver Cloud Platform Server
IDE : Visual Studio Code, Jupyter
Library : Pandas , Numpy , CatBoost , XGBoost , LightGBM, scikit-learn(VotingRegressor Model)
1) random값을 너무 높게 설정해도, 0.71밖에 나오지 않았는걸로 보니 주제가 다른 팀과 달라 결과값이 당연히 안나오는게 맞는거처럼 보인다.
혹 주제가 잘못되었다는 생각은 받지 않았는지?
- 컬럼 편집 특징
- 데이터 heatmap에선 컬럼 편집할 부분을 찾기 어렵다 판단
- featurename 그래프에서 삭제할 컬럼을빼고는 모든 데이터의 연관성이 높음
- 모델 성능 결론 : 초기 결과 값 0.60에서
- 최종 R2의 결과값 0.71을 통해 71%의 확률로 10에도 평일의 버스 이용객의 수가 주말과 휴일의 이용객 수보다 많을 것으로 예상 가능.
이번 프로젝트를 통해 다양한 머신 러닝 모델을 경험하고 추후 분석 프로젝트 시 모델 선정에 도움이 될 것으로 예상되며, 프로젝트에서 겪은 어려움과 협력활동은 팀의 발전과 성장을 이끌었다고 생각한다.
요약
19년 9월 명절 연휴 교통량을, 주말 평일 교통 이용량과
비교하여 제주도를 관광 도시라는 결론 유도가 가능할 듯 하다.
세부내용
요약 : 전처리에 시간 소모가 상당하고 발표가 임박하니 모델 전처리, 모델 성능 향상 연구 파트로 구분하여 진행한다.
세부내용
요약 : 전처리 오류로 인해 잘못된 데이터를 갖는 csv 파일을 발견하고, 모델 성능 향상을 위한 노력이 실패하여 추가적인 컬럼 수정을 통해 새로운 train.csv 파일을 생성하기로 결정했다.
세부내용
요약 : 시간 대비 모델 성능 향상을 위해 random_state 값 조정을 작은 값과 큰 값으로 나눠 시도하여 최대치 값을 도출하기로 결정했다.
세부내용