crawling & scraping

정민준·2022년 5월 25일

웹사이트, 하이퍼링크, 데이터, 정보 자원을 자동화 방법으로 수집, 분류, 저장 하는 것.

여러 웹 페이지를 돌아다니면서 어떤 데이터가 어디에 있는 지 색인(index)을 만들어 데이터베이스(DB)에 저장하는 역할

크롤링 기술이 악용이 될 수 있는데, Meta 태그의 noindex 를 사용하여 크롤러로 검색 색인 되는 것을 방지할 수 있다.

웹 페이지에서 나타나는 데이터 중에 필요한 데이터만 추출하도록 만들어진 프로그램이다.

은행권에서 요즘 사용되고 있는 통합계좌조회 등이 웹 스크래핑을 이용한다고 볼 수 있다.

스크래핑 자체를 해킹이나 침해로 분류되지 않지만,

해킹과 침해 공격의 시초가 될 수가 있음으로 민감한 정보는 일반 공공 인터넷에 노출되지 않아야 하며,

일부 메타데이터나 백엔드 DB 와의 연결고리도 조심해야한다.

스크래핑의 가장 표준적인 방어책은 요청률 제한(Rate limiting)과 캡챠(CAPTCHA)지만,

웹 스크래핑 행위를 한 단계 더 귀찮고 힘들게 할 뿐이며 완벽한 방어책은 아니다.

머리 박고 개발공부중,,,