월드 와이드 웹(www)을 탐색하는 컴퓨터 프로그램
조직적, 자동화된 프로그램
홈페이지를 돌아다니며 페이지의 요약정보와 주소를 DB화 저장 => 데이터의 최신 상태 유지
SEO 친화적인 링크: 주요 하위 페이지 검색 용이
⇨ 고품질 콘텐츠 발견 시 높은 순위
웹사이트의 전체 링크 구조가 포함
⇨ 검색 엔진이 모든 하위 페이지를 쉽게 찾고 색인을 생성
⇨ 구조를 일관되게 사용하면 페이지의 콘텐츠를 올바르게 해석
표제 (h1, h2, h3 등), 링크 제목 및 이미지 설명 (alt)의 표준 사용이 포함
⇨ 프레임 사용 시 부분적으로 색인화되고 잘못 해석
디자인은 CSS O
페이지가 느리게 로드되면 봇이 뛰어내림
일부 하위 페이지는 색인화X
⇨ 빠른 인프라는 효과적인 SEO의 기초
Java 또는 Flash 콘텐츠 없음
robots.txt 및 "noindex"에 의해 제외된 페이지 확인
봇 보호의 올바른 구성
robots.txt?
검색 엔진 크롤러를 위한 안내가 포함된 텍스트 파일
웹 페이지의 헤더에 메타 태그를 설정
<meta name = "robots" content ="noindex" />
⚠️ 불법 크롤링 예시
크롤링으로 수집한 데이터로 이익을 취하면 문제가 될 수 있다.