주식 가격 예측하기(1) : 개요

이윤택·2022년 9월 12일
0

주식 가격 예측

목록 보기
1/3

퀀트로 주식 하지 말아야 할 이유
위 링크를 들어가서 자세히 읽어보면, 퀀트 투자에 있어 생길 수 있는 여러가지 문제점들이 제시되었다. 나 또한 주식에 대한 지식이 풍부하지 않고, 데이터만을 이용하여 수익을 낸다는 것에 의문을 가지고 있기에 아래의 방법으로 미니 프로젝트를 진행해보고자 한다

데이터를 이용하여 투자를 할 때 생길 수 있는 문제의 근본은, 데이터를 아무리 잘 들여본다 한들 도메인 지식이 부족하여 합리적인 판단을 내릴 수 없다는 것이라고 생각한다.

현재 깃허브나 캐글만 들어가봐도 충분히 많은 사람들이 머신러닝을 이용하여 주식 가격을 예측하고 있다. 앞으로 진행하는 프로젝트는 해당 코드들을 참고하지만, 여기에 더해 투자 전문가들의 데이터를 들여다볼 생각이다.

미국에서는 자산을 1억 달러 이상 보유한 개인/기관 투자자는 매 분기마다 SEC에 자신의 매매 내역 보고서를 제출해야 한다. 이 보고서를 통틀어 Form 13F라 부른다. 이 13F 보고서에는 해당 개인/기관의 포트폴리오에 포함된 주식 종목 및 보유 규모가 언급되어있다.

많은 투자자들이 이 13F 보고서를 보고, 이에 기반해 투자 의사결정을 내리기도 한다.

작업 내용

1. Dataroma

Form 13F의 포트폴리오에 포함된 주식 종목 및 보유 규모를 확인한다

2. yfinance

야후에서 제공하는 주식 API이다. 1번에서 얻은 정보를 토대로 몇 개의 주식 종목을 추려낸다. 그 뒤 yfinance에서 제공하는 데이터들을 가공한다

3. Machine Learning

정제한 데이터들을 이용하여 머신러닝 모델을 구축하고, 가격을 예측한다

4. 모델 평가

일 단위로 예측한 가격과 실제 가격을 비교하고, 모델을 평가한다

사용 스택

1. Apache-airflow

매일, 혹은 몇 시간 마다 데이터를 받을텐데, 시간에 맞춰 하기는 어렵다. Apache-airflow를 이용하여 원하는 주기에 작업을 실행할 수 있도록 한다

2. BeautifulSoup4

위의 Form 13F데이터를 얻기 위해 데이터 크롤링을 하기 위한 라이브러리이다

3. Python

1,2 번의 작업을 포함한 데이터 전처리는 모두 파이썬으로 진행한다 (데이터 전처리는 Spark 사용할 수도 있음)

profile
데이터 엔지니어로 전향중인 백엔드 개발자입니다

0개의 댓글