크롤링이란

이수진·2023년 2월 16일
0

크롤링이란

무수히 많은 컴퓨터에 분산 저장되어 있는 문서를 수집하여 데이터를 추출하는 기술을 의미하며, 스크래핑(Scraping) 이라고도 한다.

쉽게 말하면 웹 페이지를 가져와서 그 안에서 데이터를 추출하는 기술이다.

자동 입력, 파일 다운로드 기능도 가능하고, driver을 이용하면 동적인 크롤링을 할 수 있게 된다. 여기서 동적이라는 의미는, 코드에 의해 사이트를 옮겨다니거나 스크롤이나 클릭을 하여 웹 코드에 변동이 있더라도 데이터를 추출할 수 있게 된다.

크롤링을 할 때 주의할 점이 있다.

웹사이트에서 크롤링봇 접근을 Disallow 하는 페이지는 크롤링을 해서는 안된다. 이는 처벌을 받을 수 있다.
그렇다면 접근을 허용하는지에 대한 여부는 어떻게 확인할까?
그것은 robots.txt 이다. 최상위 도메인주소 뒤에 /robots.txt를 입력하면 접근 허용 여부 컨텐츠를 확인할 수 있다.

예를 들어, 구글의 robots.txt를 확인해보자.

여기서 Disallow 라고 되어있는 하위 디렉토리 페이지들에서는 크롤링을 할 수 없다.

접근 허용 여부를 확인해보고 크롤링하자!!

0개의 댓글