이번 프로젝트는 그 동안 배운 모델을 이용하여 실제 머신러닝 모델을 만들어 예측하는 프로제트였다.
문제를 직접 수립하고 데이터 또한 직접 선정하여 프로젝트를 진행했다.
2022년 카타르 월드컵 결과를 예측하는 모델을 이번 프로젝트 주제로 정했다.
모델을 적요하기전 EDA과정과 Feature Engineering 에서 많은 시간을 사용했다.
원하는 대로 정보를 조작할 수 없어 과감히 포기하고 logistic Regression 으로 베이스 라인을 잡고 Randomforestclssifier 와 XGboot 모델로 서로 성능을 비교했다.
마지막으로 Sap 을 통해 특성과 outcome의 관계에 대해 review를 하고 마무리했다.
EDA 과정은 비교적 쉬웠다. kaggle 에 이미 잘 정제된 데이터를 선정했다.
1876-2021 international matches records 를 선정했고 이미 이 데이터로 2108월드컵 등 다양한 국제대회를 예측한 사례가 있었다. 이 중 가장 나의 방향과 비슷한 3개의 코드를 보면서 어떻게 진행해야 하는 지 아이디어와 인사이트를 찾았다. 계속 이 코드들을 보고 데이터를 보면서 필요한 특성을 생각해 냈고 이를 실행시키기 위해 Manupulation 을 진행했다.
먼저 데이터의 구성을 살펴보았다. smaple은 시간 순서대로 하나의 경기 결과 기록으로 남겨져 있었다. home score 와 away score 로 골득실을 나타냈지만 결과는 없었다. 이점을 이용해서 선행했던 사람들은 승패무를 홈팀을 기준으로 새로운 Traget feature를 만들었다. 다시 말하면 away 팀의 경기는 타겟 값으로 들어갈 수 없었다.
이점을 해결하기 위해 데잍처를 홈팀과 어웨이 팀으로 분리했다.
홈팀 데이터에는 홈팀을 team 으로, away team 을 oppenent로 설정했고 stust feature를 만들어 home, away 구분을 만들었다.
이와 같은 방법으로 away data 에는 away 팀을 team으로, home_team을 oppenent로 설정했고 승패를 구분했다.
다음으로 이 두 데이터를 concat으로 합치고 날짜를 이용하여 재배열을 하여 다시 데이터 프레임을 만들었다.