크롤링(Crawling), 검색 엔진에 웹 사이트(Web Site) 등록하기

yurimLee·2022년 12월 24일
0

📍 내 사이트가 검색 엔진에 노출되도록 만들기

  • 검색 엔진이란?
    네이버, 구글 등 키워드를 검색해서 관련 있는 사이트를 들어갈 수 있게 하는 서비스

STEP 1. 검색 엔진에 내 사이트 등록하기
STEP 2. 내 사이트 인증하기 (HTML 수정하기)
STEP 3. 관련 문서 제출하기
STRP 4. 검색 엔진 최적화하기(SEO: Search Engine Optimization)


STEP 1. 검색 엔진에 내 사이트 등록하기

  1. 검색 엔진에서 '네이버웹마스터도구' 검색 후 '서치 어드바이저' 사이트에 접속한다.
  2. 네이버 로그인 후 이용 약관에 동의한다.
  3. 웹마스터 도구 클릭 후 사이트 등록한다.

STEP 2. 내 사이트 인증하기 (HTML 수정하기)

  1. 내 소유 사이트인지 확인하는 작업이다. 검색 엔진에 등록하려는 사이트의 index.html 파일에 핑크색으로 표시된 메타 태그를 복사해서 섹션에 붙여넣는다.
    커밋 후 변경된 파일로 사이트가 배포된다. 사이트에서 개발자 도구(F12)를 확인하면 아래처럼 붙여넣은 메타 태그를 확인할 수 있다.
    마지막으로 자동등록 방지 보안절차로 소유확인 절차를 마무리한다.

STEP 3. 관련 문서 (robot.txt, sitemap.xml) 제출하기

🎈 검색엔진의 원리

검색 엔진에는 정보를 수집하는 로봇인 크롤러가 존재한다. 크롤러가 여러 사이트를 돌아다니면서 각 사이트에서 얻은 정보를 모아서 검색엔진에 다시 돌려준다. 그런데 이 과정에서 크롤러가 특정 사이트의 숨기고 싶은 정보까지 공개할 수 있다. 이 현상을 방지하기 위해 크롤러는 웹사이트를 방문하면서 가장 먼저 robots.txt라는 파일을 읽게 되는데, '로봇을 허용한다'라고 되어 있는 파일만 접근하여 정보들을 가져온다. 또한, sitemap.xml라는 파일을 제공하여 크롤러가 사이트에 접근했을 때 보다 더 정확하고 효율적이게 탐색할 수 있도록 해준다.

  1. 웹마스터 도구 > 사이트 관리 > 사이트 목록 > 등록 사이트 클릭 > 검증 > robots.txt > robots.txt 간단 생성
    많은 사이트에 검색되기 위해 '모든 검색로봇(*)' 옵션으로 설정한다. 참고로 각 검색엔진마다 로봇을 부르는 별명이 따로 있다. (네이버: Yeti)
    옵션 설정을 확인하고 robot.txt 파일을 다운로드 해준다.
    다운로드된 파일을 확인하면 규칙이 적혀있는 것을 확인할 수 있다.
    다운받은 robot.txt파일을 아래처럼 프로젝트 폴더의 가장 최상단(가장 바깥 쪽)에 넣어준다.

  2. sitemap을 생성하기 위해 https://www.xml-sitemaps.com/ 에 접속한다. 개인 url을 입력하고 START를 클릭한다.VIEW SITEMAP DETAILS로 들어가서 만들어준 SITEMAP FILE을 다운받는다.마찬가지로 다운 받은 sitemap을 프로젝트 폴더의 가장 최상단(가장 바깥 쪽)에 넣어준다.

  3. 추가적으로 크롤러가 좀 더 빠르고 정확하게 sitemap을 참조할 수 있도록 robot.txt에 sitemap 경로를 적어준다.
    모든 준비가 끝났다. 배포된 사이트로 들어가 url 뒤에 /sitemap.xml를 입력하면 업로드한 sitemap.xml 파일이 잘 들어가 있는 것을 볼 수 있다.

  1. 업로드가 완료되었다면 웹마스터도구에서 수집요청을 누른다.

STRP 4. 검색 엔진 최적화하기(SEO: Search Engine Optimization)

robot.txt, sitemap.xml을 체줄했기 때문에 네이버, 구글 등의 검색 엔진은 우리 사이트를 찾아서 정보를 가져올 수 있다. 그러나 특정 검색어의 상단에 노출되기 위해서는 검색 엔진 최적화(SEO) 과정이 필요하다. 다만, 키워드 경쟁이 치열하거나 SEO 순위가 낮으면 상단에 노출이 안 될 수도 있다.

  1. 진단하기 > 사이트 간단 체크> url 입력
    '서치 어드바이저'에서 제공하는 사이트 간단체크는 웹마스터도구에 사이트를 등록하기 이전에 사이트의 검색 최적화 여부(SEO)를 체크할 수 있는 진단도구이다.
    모든 작업이 끝나면, 네이버 검색창에 site:사이트 URL 로 검색을 해본다. 사이트가 보인다면 네이버에서 해당 사이트를 인식하고 페이지를 크롤하여 색인을 진행했다라는 뜻이다. 생성한지 얼마 안된 사이트의 경우 네이버에서 사이트의 존재 여부를 아직 알지 못하는 경우가 있으므로 며칠 뒤 들어가본다.

참고
https://www.youtube.com/watch?app=desktop&v=xGkftwkoJK4
https://martinkang.github.io/develop/2022/01/15/blog-base-page.html

0개의 댓글