🍒 0.001 대에서 당락이 갈린 대구 교통사고 위험도 예측 대회 회고
- 참여 기간 : 2023.12.01 ~ 2023.12.11
- 최종 스코어 : 상위 5%
✨ 1, 2위가 모두 Boost 계열 모델을 사용
- 활용한 데이터
- Train Data (2019 ~ 2021 대구 교통사고 정보 데이터)
- Country Wide Data (2019 ~ 2021 전국 교통사고 정보 데이터)
- 보안등, CCTV, 어린이보호구역, 주차장 데이터
- 공공데이터포털 (2007 ~ 2018 대구 교통사고 정보 데이터)
날짜
와 월
의 경우, 특정 월에서 사고 위험도의 최댓값, 최솟값을 가질 수 있기 때문에 해당 월의 특성을 더 잘 반영해주기 위해 결과값에 음수를 취함 덕곡동
과 노곡동
은 각각 산간 지역과 경부고속도로가 위치한 지역 사고 위험도를 기준으로 고속도로
지정
Stay님 코멘트
: 대구광역시 데이터의 동별 ECLO의 평균이 5보다 큰 경우, 대부분 시외지역에 분포해 있다는 점을 바탕으로 주변에 고속도로가 있는 지 여부를 피처로 활용하기 위해 '고속도로여부'로 피처명을 선정하여 활용함 사상자수를 기준으로 사고다발구역
지정
- 활용한 데이터
- Train Data (2019 ~ 2021 대구 교통사고 정보 데이터)
- Country Wide Data (2019 ~ 2021 전국 교통사고 정보 데이터)
- 일차별 일출 일몰 시각
- 전국 노드링크별 평균 택시 통행량
- 전국 노드링크별 평균 택시 속도
✨ 분석 결과를 정리하는 면에서 배울 점이 많아 보이는 자료
구군별 택시 평균 속도와 평균 사고 위험도는 양의 상관 관계
주행 시야는 주행 속도가 빨라질수록 좁아짐
구별 피해 운전자의 평균 연령 변수로 지역별 운전자의 인구 통계학적 특성 반영
주말, 일출, 일몰 변수 추가
🍒 교통사고 위험도 예측 관련해서 찾아보다가 발견한 모델
- Convolution Layer를 Tabular 데이터에 적용해서 비선형적 특성을 활용하는 방법
대회명이 교통사고 위험도 예측
인데다, 리더보드를 보니 점수의 간격이 촘촘했다.
Feature Engineering 없이 냅다 돌려서 낸 점수가 꽤 괜찮아서 바로 대회에 참여..!
불행의 시작
주제가 교통사고
이기 때문에 사실 위험 요인이 정해져 있다고 생각했다.
적용해본 가설
적용해볼게 아주 많았기 때문에 점수 차이를 금방 따라 잡을 수 있을거라고 생각했다..!
아주 큰 오산
가장 큰 실수는 Feature Engineering 결과를 포함시켜보고 Score가 저하되면 바로 빼버린 것이다.
다양한 시도를 해봐야하는데, Score가 저하되는 걸 보고 생각의 흐름이 엉뚱하게 굳어져버렸다.
더욱이 외부 데이터 활용이 가능했기 때문에 (채널 한정) 빠르게 다른 쪽으로 눈을 돌렸던 것 같다.
어쨌든, 내가 세운 모든 가설이 모델에서 힘을 쓰지 못했고, 그대로 대회가 마무리됐다.
수상 솔루션을 보니 크게 엇나가는건 없었지만 활용 방법에 차이가 있었던 것 같다.
다른 참가자들은 어떻게 접근했는지 배워서 다음엔 더 좋은 결과를 내봐야겠다.
그래도 Target 변수에 log를 취해서 예측 정확도를 높이려고 했던 점이나,
다양한 가설을 생각해보고 적용해보려고 했던 점은 칭찬한다👻
이상ㅎ_ㅎ