robot.txt와 meta태그의 robots의 차이

sturrxxl·2020년 12월 11일

meta태그에 대해서 검색하다 보니
robot.txt같이 robots 접근을 제어하는 경우도 있는것을 보았다.

그래서 도대체 어떤것이 검색엔진 최적화에 좋은지?
혹은 어떻게 로봇을 제어하는게 우선순위가 되는지가 궁금해졌다

robot.txt

크롤러같은 robot들은 주로 검색엔진들의 인덱싱 목적으로 사용되는데,
이런 로봇들의 접근을 제어하거나 SEO를 높이기 위한 규약으로
robots.txt는 웹사이트의 최상위 경로(=루트)에 작성한다.

User-agent: Googlebot
Disallow: /

User-agent: *
Disallow: /user/mypage.html

개별 페이지의 색인이 생성되는 방식과 자세한 페이지별 접근방식을 활용할 수 있다.
로봇 메타 태그를 페이지의 섹션에 삽입한다.

<!--Googlebot만 페이지의 색인을 생성하지 못하게 설정-->
<meta name="googlebot" content="noindex" />

<meta name="robots" content="noindex, nofollow" />

위의 두가지를 잘 사용하면 검색엔진의 사이트 접근을 효과적으로 차단하거나 허용할수 있고,
검색엔진 결과에 인덱스 되는것 또한 컨트롤 할수 있다고 한다.

모두 공개하기 위해 크롤러와 인덱스를 모두 허용해 놓았다면 별문제 없겠지만
robots.txt와 meta robots 태그의 역할을 잘못 이해해 적용하면 원하지 않는 결과가 나온다.

크롤러를 허용하고 인덱스를 차단하는 것.
그래야 크롤러가 인덱스를 차단하라는 것을 감지할수 있고 이를 검색결과에 반영.

<!--robot.txt-->
User-agent: *
Disallow:

<!--html-->
<meta name="robots" content="noindex" />

두가지는 검색엔진의 크롤링과 인덱싱의 차이

크롤링 제어 ➡︎ robots.txt
인덱싱 제어 ➡︎ meta태그의 robots

크롤링 검색로봇이 내 사이트에 방문해서 링크를 타고 돌아다님
인덱싱 크롤링한 결과를 토대로 검색엔진에 노출시킴.

잘 활용하기 위해서는 크롤링과 인덱싱의 역할,
그리고 robots.txt 파일과 meta robots 태그의 사용방법을 잘 알아야 하며,
인덱싱을 차단하는 역할은 meta태그의 robots가 robots.txt보다 우위에 있다는걸 기억하고 사용해야 한다!

프론트 개발자가 되는 과정