Scraping & Crawling

turnaroundwoo·2023년 3월 2일
0

11st Blogs

목록 보기
28/52

01. Scraping & Crawling


scraping(스크래핑)특정 웹사이트나 페이지에서 필요한 데이터를 자동으로 추출해 내는 작업으로, 해당 사이트의 HTML을 긁어오는 것을 말합니다. 웹 스크래핑은 자동으로 수집된 특정 정보가 필요한 분야에서 다양하게 활용되고 있습니다. 예를 들어, 스크래핑 기술을 활용하여 뉴스 정보를 수집하거나(금융 및 주식 분야), 기업 재무제표 정보를 수집하거나(투자 분야), 경쟁사 상품의 정보 수집하거나, 가격 변동 이슈를 파악하거나(전자상거래 시장), 다양한 분야에서 활용되고 있습니다.

crawling(크롤링)웹상의 정보들을 탐색하는 수집하는 작업으로, 스크래핑을 주기적으로 여러번하는 것을 말합니다. 다만, 다른 사이트를 크롤링하는 것은 법적 이슈도 있기 때문에 사용할 때 어느정도 주의가 필요하기도 합니다.


02. 차이점


Scraping 과 Crawling 은 데이터를 긁어온다는 점이 비슷하여 의미가 자주 혼용이 되곤 하는데, 기술적으로도 함께 사용되는 경우가 많아서 더욱 헷갈리기도 합니다. 하지만 scraping(스크래핑) 의 경우, 데이터 추출을 원하는 대상이 명확하여 특정 웹 사이트만 추적할 수 있지만, Crawling(크롤링) 은 웹 페이지의 링크를 타고 계속해서 탐색을 이어나간다는 점에서 차이점이 존재합니다. (그 외 차이점은 아래표 참고)

CrawlingScraping
웹에서 페이지 및 링크 다운로드웹을 포함한 다양한 소스에서 데이터 추출
( 웹 기반으로 작동 )( 반드시 웹과 관련된 것은 아님 )
중복제거 필수적중복제거 반드시 필요한 것은 아님
내가 찾는 키워드와 연관된 링크 모아서 볼 수 있음원하는 데이터가 명확하여 흩어져있는 해당 데이터를 자동 추출 후 전달함

🗒 출처


0개의 댓글