[공모전 수상작 리뷰]Reactjs+Nodejs+python+scikit-learn{ PCA(주성분 분석), VAR(다변량시계열분석)}으로 공연 예매 추이 시나리오 별 예측하는 서비스 만들어보기 - 개요

Design.C·2021년 12월 24일
1

공연예술백신 프로젝트 개요

데이터 분석 편 보러가기

웹 구현 편 보러가기

기본 분석 개요

  • 분석 주제 특성상, KOPIS데이터 이외에도 다양한 주제의 데이터가 필요했다.
  • '코로나'의 영향력이 어떤 양상으로 끼쳤는지 판단하기 위해 '펜데믹 이전(2019년)', '펜데믹 초기(2020년)', '펜데믹 진행중기(2021년)'로 나누어 분석하였다.
  • '코로나 수혜분야'라고 판단 가능한 근거를 관련기사, 통계자료를 통해 찾았다.
  • 직접적인 수혜분야라고는 할 수 없지만, 간접적으로 수혜를 본 분야(주식, 가상화폐)의 데이터도 포함했다.

예매 건수 다변량시계열 예측모델 개요

  • 예매 건수가 타 지표 대비 공연관람 인원수와 관련도가 가장 높으리라 판단되어, 타겟 지표로 정함
  • 채택된 모형은VAR(벡터자기회귀모형)이며, 이를 이용하여 다변량시계열분석 및 예측을 진행함
  • 사용된 데이터는 2019/01/01 ~ 2021/08/31 사이, 일별 시계열 데이터이며, 공연예매건수, ott앱사용자수, ott앱총사용시간, 배달앱사용자수, 배달앱총사용시간, 중고거래앱사용자수, 중고거래앱사용시간, 화상회의앱사용자수, 화상회의앱사용시간, 코로나확진자수, 지하철이용자수, 가상화폐거래량, 가상화폐변동추이, KOSPI지수, KOSPI거래량, KOSDAQ지수, KOSDAQ거래량, 평균기온, 일조량, 일사량, 바람세기, 습도 데이터임
  • 시계열 데이터의 정상성 검증에는, ADF test를 이용함
  • 시계열 데이터의 정상성이 검증되지 않았다면, 차분을 시행한 뒤, 재평가 함
  • 선택된 최적 모델의 경우, 표준화 + PCA(주성분 2개)를 거친 모델을 채택함
  • 예측값과 실제값의 검증은 공연예매건수 피처의 r2스코어와 MSE, RMSE를 이용함

예측 모델을 이용하여 만든 예매 건수 예측 서비스 웹

  1. 예측 서비스 인트로

  1. 예측 기간 선택 문항

  1. 예측 결과 페이지

  1. 예측 결과 시나리오별 상세 페이지

  1. 예측 결과 시나리오별 상세 페이지 비즈니스 인사이트

데이터 분석 및 웹 구현 절차

  1. 데이터 탐색 및 전처리

  2. 데이터 변수 별 상관분석

  3. 데이터 모델링 및 교차검증

  4. 다변량 시계열 분석 및 예측

  5. 시나리오 별 최종 가중치 반영

  6. 백엔드 개발

  7. 프론트엔드 개발

profile
코더가 아닌 프로그래머를 지향하는 개발자

0개의 댓글