- FinanceDataReader를 활용한 웹스크래핑
- FinanceDataReader란?
- 웹스크래핑 기본 지식
- FinanceDataReader 사용해보기
🔹 API를 사용해 데이터 수집을 하는 이유
1) 서버 부담을 줄이기 위해
2) 허가된 사람에게만 데이터를 제공하기 위해
3) 실시간 데이터를 제공하기 위해 (eg. 공공데이터)
🔹 로봇 배제 표준(robots.txt)
* Disallow: / # 크롤러가 모든 경로의 데이터를 가져가지 말라라는 의미
* Allow : /$ # 가장 상위페이지만 크롤랑 허용
🧉 데이터 수집 시 주의사항
1. 허락된 정보인지 확인하기
2. 사이트의 부담이 되지 않도록 크롤링 속도 조절하기
3. 데이터의 출처 확인하기
🔹 라이브러리 설치하기
!pip install -U finance-datareader
🔹 라이브러리 불러오기
import FinanceDataReader as fdr
🔹 한국거래소 상장종목 전체 불러오기
url = 'http://kind.krx.co.kr/corpgeneral/corpList.do?method=download&searchType=13'
df_listing = pd.read_html(url, header=0, flavor='bs4', encoding='EUC-KR')[0]
df = fdr.StockListing("KRX")
df
🧉 학습 시 꿀팁들
from tqdm import trange
df_news = df_news.reset_index(drop=True)
📌 FinanceDataReader는 금융 데이터를 수집하는 추상화된 라이브러리다.
📌 데이터를 수집할 땐 time.sleep(0.2)을 활용하여 매너를 지키자
📌 함수의 독스트링을 보고 싶을 땐 help(함수명) 또는 함수명?
새로 배운 내용이 많았지만 정신을 놓지 않은 나자신을 칭찬해! 수업 중간중간 필기를 좀 더 꼼꼼히 해야겠다. 나는 내가 정리하고 싶은 것만 하는 버릇이 있다..
함수를 모르면 일단 우울하다 ㅠㅠ 그러지 말고 문서와 소스코드를 보면서 그때그때 확인하자!
덜 우울해하기..!