Scraping & Crawling

홍예림·2023년 3월 6일
0

웹에서 데이터를 수집하기

두루뭉실하게 설명하자면 이렇다.

  • 스크래핑이란, 어떤 웹 페이지의 정보를 긁어오는(scrape) 것
  • 크롤링이란, 자동화된 방법으로 반복적으로 정보를 스크래핑 하는 것

스크래핑 vs 크롤링

스크래핑

  • 해당 웹페이지에서 정확한 키값을 가진 데이터 추출
  • URL 뿐만 아니라 해당 페이지에 포함된 정보(e.g. 상품이름, 가격 등)를 뽑아온다
  • 스크래핑을 자동화한 봇은 스크래퍼라고 한다

크롤링

  • 다양한 웹사이트를 훑어본다
  • 찾는 데이터가 포함된 모든 페이지를 가져온다. 웹에서 '데이터 여기있다!'하고 인덱스를 붙여놓는 것.
  • 따라서 크롤링 결과는 URL
  • 이와같은 데이터 인덱싱 작업을 자동화한 봇인 크롤러를 이용한다

둘이 혼용되는 것 같은데?

크롤링 후 스크래핑까지 이어져야 원하는 데이터를 뽑아올 수 있기 때문에 두 단어가 거의 동일하게 사용되는 것으로 보인다.

정보는 자원이다

내가 애써 모은 정보를 경쟁자가 홀랑 가져가서 수익을 낸다면, 그리고 경쟁자가 수익을 내는 만큼 내 수익이 감소한다면? 부당한 일이 아닐 수 없다 🥲
이런 일을 방지하고자, 웬만한 대형 서비스들은 크롤링을 감지 및 차단하도록 대비하고 있다. 공부한다는 명목으로 크롤링을 시도해봤다가 IP 차단 당하지 않도록 조심하자.


Web Crawling vs. Web Scraping – Main Differences and Advantages

profile
SYNC 5반 2023.07 - 2023.12

0개의 댓글