데이터 분석을위해 대량의 데이터를 수집하려고 사용합니다.
네이버 블로그 글 스크랩 또는 퍼간다고 하잖아요 ?
그 Scrap(스크랩)뒤에 y 붙인거라고 생각하시면 편합니다.
먼저 scrapy 설치합니다.
전체적인 scrapy 동작과정은 같지만, 데이터핸들링(3)교안 참고
데이터를 수집하려는 URL이 주는 데이터들은 통일되어 있지않습니다.
그러므로, 개발자도구1/24(금)실습 참고
를 이용하여 특정 패턴의 필드를 찾고,
크롤링 하시면 데이터 수집이 완료됩니다.
중복, 특수문자 데이터는 전처리과정으로 정형화합니다.
그 과정에서 오타 및 지식부재로 오류가 날텐데,
https://discord.com/channels/1315917128133644350/1315917128875900991/1326460215197175818 흐름 참고 부탁드립니다.
Scrapy 사용법 공식문서
https://docs.scrapy.org/en/latest/intro/overview.html