[시계열] 데이터 분석 준비

Lightman·2021년 11월 14일
0

REAL GAME ♟️

목록 보기
2/2

데이터 분석을 준비해보자

  • 데이터 분석 준비하기
    • 분석 싸이클/용어/결과해석
    • 시계열 분석 알고리즘 이해
    • 시계열 데이터 패턴 추출
      • 실전 설명변수X의 현실적 데이터 전처리 방향
      • 실전 종속변수Y의 효과적 데이터 전처리 방향
    • 시계열 데이터 분리
    • 레퍼런스 알고리즘 구축
    • 분석성능 확인
    • 분석종료 위한 잔차진단

데이터 분석 준비하기

시계열 데이터 패턴 추출

[실전] 설명변수X의 현실적 데이터 전처리 방향

XiX_i의 경우 조건수가 높은 것은 죄악시 되므로 조건수를 감소시켜야 한다. 크게 ① Scaling ② Multicorrelineatrity제거 ③ Regularization가 있다.

① Scaling

② Multicorrelineatrity제거

VIF를 이용한 방법과 PCA를 이용한 방법이 있다.

  • VIF
  • PCA

③ Regularization

[실전] 종속변수Y의 효과적 데이터 전처리 방향

종속변수 Y는 정상화를 통해 더 나은 예측에 도움을 얻는다. 정상화의 사례는 Random Walk ↔ White Noise, 매출 ↔ 점유율, Price ↔ Return 등 이 있으며, 이를 통해 다음과 같은 이점을 얻는다.

  • ① 예측력↑
  • ② Parameter의 수↓
  • ③ 알고리즘에러↓

시계열 데이터 분리

시간현실의 반영

일반적으로 시계열 데이터의 분리는 FE 이후에 진행한다. 그러나 시계열 데이터는 test 데이터에 대한 정보가 미지이므로 train 데이터를 기준으로 test데이터를 추론하거나 train데이터의 경향이 test데이터에 반복된다는 전제를 갖고 수행한다.

profile
현직 데이터 분석가 / 데이터 과학의 정도를 따라 🚲 / About DEV DA ML

0개의 댓글