[230110] 멋쟁이사자처럼 AI SCHOOL 8기 ' FinanceDataReader_박조은강사님' 복습

조세연·2023년 1월 12일

Crawling pandas python web scrapping

멋사 AI SCHOOL 8기

목록 보기

11/35

📝Today I learned

🚀 TIL 목차 🚀

FinanceDataReader를 활용한 웹스크래핑

FinanceDataReader란?

웹스크래핑 기본 지식

FinanceDataReader 사용해보기

FinanceDataReader를 활용한 웹스크래핑

1) FinanceDataReader란?

FinanceDataReader : 금융 데이터를 수집하는 추상화된 라이브러리

2) 웹스크래핑 기본 지식

🔹 API를 사용해 데이터 수집을 하는 이유
1) 서버 부담을 줄이기 위해
2) 허가된 사람에게만 데이터를 제공하기 위해
3) 실시간 데이터를 제공하기 위해 (eg. 공공데이터)

🔹 로봇 배제 표준(robots.txt)

로봇 배제 표준 : 로봇(크롤링 프로그램 등등)이 접근하는 것을 배제하는 프로토콜 (권고 사항)

* Disallow: /  # 크롤러가 모든 경로의 데이터를 가져가지 말라라는 의미
* Allow : /$   # 가장 상위페이지만 크롤랑 허용

🧉 데이터 수집 시 주의사항
1. 허락된 정보인지 확인하기
2. 사이트의 부담이 되지 않도록 크롤링 속도 조절하기
3. 데이터의 출처 확인하기

3) FinanceDataReader 사용해보기

🔹 라이브러리 설치하기

!pip install -U finance-datareader

🔹 라이브러리 불러오기

import FinanceDataReader as fdr

🔹 한국거래소 상장종목 전체 불러오기

url = 'http://kind.krx.co.kr/corpgeneral/corpList.do?method=download&searchType=13'
df_listing = pd.read_html(url, header=0, flavor='bs4', encoding='EUC-KR')[0]
df = fdr.StockListing("KRX")
df

🧉 학습 시 꿀팁들

display()
: 한 셀에 있는 모든 코드를 동시에 실행
작업 진행 속도 표시

from tqdm import trange

인덱스 재정렬 + 기존 인덱스 제거

df_news = df_news.reset_index(drop=True)

독스트링
: 함수를 텍스트로 설명해놓은 것
: help(함수명), 함수명? 로 확인 가능

❗이것만은 외우고 자자 Top 3

📌 FinanceDataReader는 금융 데이터를 수집하는 추상화된 라이브러리다.

📌 데이터를 수집할 땐 time.sleep(0.2)을 활용하여 매너를 지키자

📌 함수의 독스트링을 보고 싶을 땐 help(함수명) 또는 함수명?

🌟데일리 피드백

1. 오늘의 칭찬&반성

새로 배운 내용이 많았지만 정신을 놓지 않은 나자신을 칭찬해! 수업 중간중간 필기를 좀 더 꼼꼼히 해야겠다. 나는 내가 정리하고 싶은 것만 하는 버릇이 있다..

2. 내가 부족한 부분

함수를 모르면 일단 우울하다 ㅠㅠ 그러지 말고 문서와 소스코드를 보면서 그때그때 확인하자!

3. 내일의 목표

덜 우울해하기..!

조세연

HR Analyst가 되고 싶은

이전 포스트

[230109] 멋쟁이사자처럼 AI SCHOOL 8기 '판다스기초_박조은강사님' 복습

다음 포스트