검색 로봇 (웹 크롤러)

Sshu Sshu·2023년 1월 28일

검색로봇(웹 크롤러)

월드 와이드 웹(www)을 탐색하는 컴퓨터 프로그램
조직적, 자동화된 프로그램

홈페이지를 돌아다니며 페이지의 요약정보와 주소를 DB화 저장 => 데이터의 최신 상태 유지

SEO 친화적인 링크: 주요 하위 페이지 검색 용이
⇨ 고품질 콘텐츠 발견 시 높은 순위

웹사이트의 전체 링크 구조가 포함
⇨ 검색 엔진이 모든 하위 페이지를 쉽게 찾고 색인을 생성

⇨ 구조를 일관되게 사용하면 페이지의 콘텐츠를 올바르게 해석
표제 (h1, h2, h3 등), 링크 제목 및 이미지 설명 (alt)의 표준 사용이 포함

⇨ 프레임 사용 시 부분적으로 색인화되고 잘못 해석
디자인은 CSS O

페이지가 느리게 로드되면 봇이 뛰어내림
일부 하위 페이지는 색인화X
⇨ 빠른 인프라는 효과적인 SEO의 기초

Java 또는 Flash 콘텐츠 없음
robots.txt 및 "noindex"에 의해 제외된 페이지 확인
봇 보호의 올바른 구성

robots.txt?
검색 엔진 크롤러를 위한 안내가 포함된 텍스트 파일

웹 페이지의 헤더에 메타 태그를 설정

<meta name = "robots" content ="noindex" />

⚠️ 불법 크롤링 예시

크롤링으로 수집한 데이터로 이익을 취하면 문제가 될 수 있다.

Front-End Developer