검색 로봇 (웹 크롤러)

Sshu Sshu·2023년 1월 28일
1

검색로봇(웹 크롤러)

월드 와이드 웹(www)을 탐색하는 컴퓨터 프로그램
조직적, 자동화된 프로그램

웹 크롤링

홈페이지를 돌아다니며 페이지의 요약정보와 주소를 DB화 저장 => 데이터의 최신 상태 유지

  • 방문한 사이트의 모든 페이지의 복사본을 생성
  • 복사본을 보다 빠른 검색을 위해 색인화(Indexing)
  • 링크 체크나 HTML 코드 검증과 같은 웹 사이트의 자동 유지 관리 작업
  • 자동 이메일 수집과 같은 웹페이지의 특정 형태의 정보를 수집

SEO를 위한 웹 크롤링 최적화

1. 링크를 따라 새로운 웹 페이지와 콘텐츠를 분석

SEO 친화적인 링크: 주요 하위 페이지 검색 용이
⇨ 고품질 콘텐츠 발견 시 높은 순위

2. HTML 사이트 맵 구성

웹사이트의 전체 링크 구조가 포함
⇨ 검색 엔진이 모든 하위 페이지를 쉽게 찾고 색인을 생성

3. HTML 태그의 올바른 사용

⇨ 구조를 일관되게 사용하면 페이지의 콘텐츠를 올바르게 해석
표제 (h1, h2, h3 등), 링크 제목 및 이미지 설명 (alt)의 표준 사용이 포함

4. 프레임 기반 X

⇨ 프레임 사용 시 부분적으로 색인화되고 잘못 해석
디자인은 CSS O

5. 웹사이트 성능

페이지가 느리게 로드되면 봇이 뛰어내림
일부 하위 페이지는 색인화X
⇨ 빠른 인프라는 효과적인 SEO의 기초

그외..

Java 또는 Flash 콘텐츠 없음
robots.txt 및 "noindex"에 의해 제외된 페이지 확인
봇 보호의 올바른 구성

robots.txt?
검색 엔진 크롤러를 위한 안내가 포함된 텍스트 파일

  • 크롤러가 여는 첫 번째 문서
  • 검색할 수 있는 영역 정의
    • 전체 도메인, 전체 디렉터리, 하위 디렉토리, 개별 파일 제외 가능
  • 사이트 맵에 대한 링크를 통합하여 기존 URL에 대한 개요를 제공


검색 엔진에서 웹 페이지를 색인화하지 않으려면?

웹 페이지의 헤더에 메타 태그를 설정

<meta name = "robots" content ="noindex" />

⚠️ 불법 크롤링 예시

크롤링으로 수집한 데이터로 이익을 취하면 문제가 될 수 있다.

法 “여기어때, 야놀자 정보 무단수집 맞다”...前 대표 ‘유죄’

profile
Front-End Developer

0개의 댓글