KRX Stock_Investment Project #4

김태준·2023년 7월 18일
0

DA_Project

목록 보기
5/7
post-thumbnail

✅ ARIMA 개선

ARIMA 모델은 一(일)변량 시계열 데이터에 적합한 모델로서 다변량 시계열 데이터 모델의 경우 타 딥러닝 혹은 ML 모델을 통해 학습을 진행해야 한다.

기존, ARIMA 모델의 유일한 파라미터라고 할 수 있는 p,d,q에 대해 모두 0으로 두고 예측을 하니 15일 치 데이터의 수치가 동일한 것을 확인할 수 있었다.

이에 대해 왜 그러지? 라는 의문을 가졌고 이는 어쩌면 당연한 결과였다.
앞서 p, d, q에 의미를 살펴봤을 때 아래와 같았다.

  • p : Auto Correlation (자기회귀) 이전 자신의 관측값이 이후 자신의 관측값에 영향을 줌.
  • d : Difference (차분) 변화량을 의미
  • q : Moving Average (평균 이동) 예측오차를 이용해 미래를 예측하는 모형.
    -> ARIMA모형이 이제 위 3개의 파라미터를 통해 예측을 진행하는 모델로써 기존 AR모형과 MA모형을 합친 것으로 해석하면 된다.

따라서 자기회귀와 평균이동이 없다면 예측 차원이 1차원인 경우 뭐 상관없겠다만, 이처럼 15일치를 예측하는 경우 전날 관측값, 예측오차를 이용한 미래 예측이 상당히 중요해진다.

기존 변화량을 가한 데이터를 사용하고, 다변량 시계열 데이터가 아닌 일변량 시계열 데이터 적용을 위해 필요한 feature는 날짜, 종가만 존재하게 된다.
따라서 관측 데이터 수가 2년치나 필요가 없다고 판단하고 이전 1년치 데이터만 적용하여 모델 결과를 확인해보고자 한다.

추가적인 생각) 종목이 2000개라면 각 종목별 예측을 위한 p, q 계수가 다를텐데 이는 어떻게 적용하지? 동일한 모델로 2000개를 돌릴 것인가 vs 2000개 상이한 모델을 생성할 것인가..
아무래도 후자는 말이 안된다고 생각하고 전자를 기준으로 진행.
-> 기존 종가를 전날 대비 변화량 (수익률)로 변환 후 minmaxscaling을 적용하였고 정상성을 제거한 것을 확인할 수 있었기에 기존 종가 컬럼이 아닌 수익률을 기준으로 ARIMA 예측 진행.

profile
To be a DataScientist

1개의 댓글

comment-user-thumbnail
2023년 7월 19일

정말 잘 읽었습니다, 고맙습니다!

답글 달기