데이터 수집의 최고, 크롤링에서 유의해야 할 점

·2022년 6월 18일
0

크롤링

목록 보기
1/6
post-thumbnail

크롤링을 하기에 앞서 확인을 해봐야하는 것이 있다.

왜냐하면 크롤링만큼 데이터를 수집하기 쉬운 방법이 없는데, 이것으로 인하여 법적 분쟁이 발생한 적이 종종 있었다.

제일 컸던 판례는 역시 야놀자와 여기어때로 10억 가량의 벌금을 냈다.

해당 뉴스 기사 => http://economy.chosun.com/client/news/view.php?boardName=C05&page=21&t_num=13611638

그리고 최근에도 사람인과 잡코리아간의 법적 분쟁도 있었고

네이버도 분쟁이 발생하고 있는 것 같은데.... 일단 크롤링을 하는 것은 신중하게 해야한다.

허용하는지 확인하는 방법

해당하는 홈페이지 최상단에서 /robots.txt를 붙이면 아래와 같은 정보를 확인할 수 있다.

이것은 내가 작업하려고 하는 원티드의 https://www.wanted.co.kr/robots.txt 에서 가져온 정보인데

Disallow는 허용하지 않음
Allow의 경우는 허용하는 것을 이야기한다.

물론 허용하지 않더라도 상업적 수익을 얻는 것이 아니라면 문제가 되지 않는 것으로 알고있어서
교육목적으로는 문제가 없는 것으로 안다.

하지만 트래픽의 부하가 올 수 있기 때문에 조금 느린 속도로 진행해주는 것이 예의라고 한다.


그으런데.... 내가 하려고 하는 사이트는 https://www.wanted.co.kr/wdlist/518?country=kr&job_sort=company.response_rate_order&years=-1&locations=seoul.all 인데 허용 비허용이 둘다 없네.......?

으....으으음.............

profile
물류 서비스 Backend Software Developer

0개의 댓글