[TIL]Periodic Web Scraping

강슬기·2021년 12월 6일
0

TIL

목록 보기
8/9

웹 크롤링과 웹 스크래핑의 차이점

업무상 scraping application을 개발을 진행하게 되었다.
일회성뿐 아니라 주기적으로 scraping하여 최신성을 유지하는 것도 기능목표이다.

Scraping을 위해 BeatifulSoup , scrapy, selenium를 조사하였고 아래와 같은 좋은 게시글들을 확인하였다.
파이썬 크롤링 튜토리얼
python웹 크롤러 도구 비교 및 사용 후기

주기적인 처리를 위해 celery , apscheduler를 확인하였다.
JAVA를 사용하던 때는 Quartz라는 대표적인 Job Scheduler를 활용했고
Python에서는 celery를 사용해서 한 차례 개발을 해 보았다.
하지만 Message Queue 사용이 부담이 되어
broker로 MQ계열을 지원하는 celery를 제외하고
JobStore로 database를 지원하는 apscheduler로 진행하려고 한다.

FastAPI 프레임워크기반으로 apsheduler를 활용하여 주기적 처리 기능을 구현하면 될 것 같다.

profile
구르는돌

0개의 댓글