'웹 스크래핑'과 '웹 크롤링'

BE_{Potato.}·2022년 12월 20일
0

웹 스크래핑과 웹 크롤링에 대해 알아보자.

웹 스크래핑은 우리가 흔히 아는 스크랩과 같이 웹사이트에서 필요한 데이터를 긁어오는 것이다.
이 웹 스크래핑은 웹 사이트에서 특정 데이터를 추출하는 프로세스인데, 웹 크롤링과 달리 특정 웹 사이트 또는 페이지에서 특정 정보를 검색한다.
분석을 위한 특정 데이터를 추출하거나 새로운 것을 만들고, 웹 크롤링은 기존의 복사본을 만든다.
하지만 웹 스크래핑을 하기 위해서는 먼저 필요한 정보를 찾기 위해 웹 크롤링 작업을 해야 한다.
웹 스크래핑은 주식 시장 데이터, 비즈니스 리드, 공급업체 제품 스크래핑과 같은 특정 데이터에 대한 특정 웹사이트를 대상으로 한 것이다.

웹 크롤링은 수많은 웹사이트들을 체계적으로 돌아다니면서 URL, 키워드 등을 수집하는 것이다.
데이터 크롤링에는 웹 페이지의 모든 키워드, 이미지 및 URL을 저장하는 것과 같은 특정 수준의 스크래핑이 필요하다.
(보통 검색 엔진이 웹사이트를 인덱싱하기 위해서 사용됨.)
보통 구글, 네이버 같은 검색 엔진들이 많이 사용하는데,
서로 연결된 URL을 수집하고,
인덱싱(키워드를 통해 URL을 검색할 수 있게 해주는 작업)하기 위해서 사용한다.

남용된 웹크롤링은 범죄행위가 될 수 있다고 하니 조심해서 사용해야겠다!

profile
항상 '기본'을 중요시하는 예비 백엔드개발자입니다!

0개의 댓글