KRX Stock_Investment Project #2

김태준·2023년 7월 10일
0

DA_Project

목록 보기
3/7
post-thumbnail

✅ To do list

종목이 2000개에 달하므로, 시계열 데이터의 특성인 정상성을 파악해야 하는데.... 2000개에 달하는 종목 전체에 대해 정상성을 파악한다는 것은 사실상 불가능한 일이다.

정상성을 파악해야 하는 이유는, 정상성이 없는 데이터인 경우 시간에 따른 특성이 없기에 시계열 모델 적용 자체가 의미가 없어지기 때문이다.
추가적으로 정상성을 파악하는데는 통계적 가설 검정 수행을 위함과 모델링의 안정성 부분도 존재한다.

-> 따라서 이를 모델링이나 따로 기법을 통해 확인이 가능한지 알아보아야 함.

+) 추가적으로 알아보아야 하는 요소

  • Trend
  • Seasonality
  • Cycle
  • Noise
  • Outlier
  • AutoCorrelation
  1. 일별 변화량으로 value변환 작업 진행해 EDA로 정상성 제거되었나 확인 후 산업별로 판단하기 (정상성 여부 확인. 없으면 시계열 데이터 의미 X)
  2. 모델링 진행 (LSTM)

✅ 핵심

예측률을 높여 각 종목 별 추후 30일의 종가를 예측하고 수익률을 기준으로 상위 200, 하위 200개의 종목을 골라 포트폴리오 구성 및 수익률 계산으로 도출된 샤프지수 계산

포트폴리오 제출 : 2000개 종목별 수익률 리스트

✅ Insight

< 시장별 Insight >

🎈Data Insight

KOSDAQ 시장 데이터들의 경우, ADF 통계량이 음수인 것으로 보아 정상성을 가지며 P값 역시 귀무가설을 기각하기에 정상성이 있다고 판단. -> 시계열 데이터 적합

KOSPI 시장 데이터들의 경우, ADF 통계량이 음수인 것으로 보아 정상성을 가지며 P값 역시 귀무가설을 기각하기에 정상성이 있다고 판단. -> 시계열 데이터 적합

< 산업별 Insight >

산업별 종가 adf test 결과 위 그림과 같이 22개의 산업에서 정상성이 없는 것으로 판단

profile
To be a DataScientist

0개의 댓글