본문 바로가기
JAVA

특정 도메인, 특정 URL만 검색엔진 수집 제한하는 방법

by helloissue 2021. 11. 16.

구글 서치 콘솔에 도메인 속성으로 등록을 마쳤습니다. 하지만 특정 서브도메인, 특정 URL은 웹 검색에서 제외하려고 합니다. 검색엔진 관리자에서 수동으로 삭제하는 것이 아닌, 검색엔진이 영구적으로 수집해가는 것을 제한할 수 있는지 알아보겠습니다.

 

 

웹-검색-제외
웹-검색-제외

 

1. 검색엔진을 조정할 수 있는 Robots문서를 작성하라.


검색엔진은 사이트를 방문할 때마다, Robots문서를 참조하여 수집해갈수 있는 영역과, 수집 제한의 영역 등을 먼저 파악하고 수집할지 여부를 결정합니다. 따라서 해당 문서를 수정, 생성한다면 검색엔진의 행동을 관리할 수 있습니다.

User-agent: *
Disallow: /owner
Disallow: /manage
Disallow: /admin
Disallow: /oldadmin
Disallow: /search
Disallow: /m/search
Disallow: /m/admin
Disallow: /like
Allow: /

 

지금 보시고 계시는 블로그의 Robots.txt 문서입니다. ( 도메인/robots.txt , sayit.tistory.com/robots.txt  ) 
주목해서 보여야 할 부분은 ' Disallow: /admin '  이 부분입니다. 구글뿐만 아니라 모든 검색엔진은(네이버, 다음, 마이크로소프트 빙 등) Disallow를 수집해가지 말아야 할 영역으로 인식합니다. 따라서 이 부분만 유심히 살펴보시어 작성을 하신다면  특정 URL 패턴을 제한할 수 있습니다.   ' Disallow: /admin ' ==>  즉 '/amin'으로 시작되는 URL 들은 수집을 해가지 않습니다.


2. 검색엔진이 바라보는 URL 맵 지도 sitemap.xml을 수정하라.


sitemap은 우리가 차량을 운전할 때 보는 내비게이션 맵과 같습니다. 따라서 해당 지도에서 제한하고자 하는 URL을 삭제한다면 길이 있는지도 모를 것입니다. 물론 Robots에서 제한을 걸면 수집을 해가지 않습니다만, 특정 국가의 로봇은 그런 것을 무시하고 읽어가기도 합니다. 따라서 sitemap의 특정 URL의 삭제 등도 관리도 해주어야 합니다.

( 도메인/sitemap.xml , sayit.tistory.com/sitemap.xml ) 

 

<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <url>
    <loc>https://sayit.tistory.com</loc>
    <lastmod>2021-11-16T03:16:14+09:00</lastmod>
    <priority>1.0</priority>
  </url>
  <url>
    <loc>https://sayit.tistory.com/entry/JVM-JDK-JRE</loc>
    <lastmod>2021-08-16T16:23:04+09:00</lastmod>
  </url>
  <url>
    <loc>https://sayit.tistory.com/category/수집</loc>
  </url>
  <url>
    <loc>https://sayit.tistory.com/m/category/제한</loc>
  </url>
  <url>
    <loc>https://sayit.tistory.com/category/구글</loc>
  </url>
</urlset>

 

3. 그전에 수집되었던 기록들은 수동으로 지워라.


Robots를 작성하기 전에 이미 검색엔진에서는 수집을 하고 기록을 한 뒤에 구글이나, 네이버, 다음, 빙의 검색에서 노출이 되고 있을 수도 있습니다. 그러하기 때문에 이 부분도 삭제를 하려면 각 검색엔진의 콘솔, 또는 매니저로 접속을 하셔서 URL수동 제한 , 삭제를 진행을 해야 합니다. 하지만 이 작업은 일일이 파악해야 하고 일이 너무 많기 때문에 추천하지는 않습니다.

 

 

4. 딱 한 가지 문서만 수집을 제한하려면?

 

Robots를 특정 URL 패턴은 한 가지 문서뿐만 아니라. 그룹으로 지어서 관리를 할 수 있지만, 딱 한 가지 문서에만 적용을 하고 싶을 때는 맞지 않을 수도 있습니다. 그럴 때에는 하단의 noindex 태그를 head태그 사이에 넣음으로써 로봇의 수집을 제한할 수 있습니다.

 

<head>

<meta name="robots" content="noindex">

</head>

검색 로봇이 페이지 재방문 시 해당 태그를 인식하여 색인에서 제외합니다. 따라서 이 부분은 검색엔진 웹마스터 도구 관리자로 접속하셔서 수동으로 재수집 요청을 한 번 더 해야 하는 단점이 존재합니다. 해당 문서의 수정시간이 sitemap.xml에 등록되어 새로운 문서로 인식이 되는 구조라면 재수집 요청은 안 해도 되지만, 검색엔진에게 수동으로 요청하는 양도 많기 때문에 무조건 수동 요청을 해야 반영되는 느낌을 받았습니다.

 

5. 비밀번호로 접근을 제한하라.

 

때로는 법률적 문제로 급하게 해당 문서를 내려야 할 상황이 있습니다. 이럴 때 일일이 모든 검색엔진에 방문하여 수정하는 일이 만만치 않습니다. 시간을 다투는 급한 상황에서는 해당 문서를 삭제하거나, 해당 문서의 보호 글, 또는 비밀번호를 걸어서 수정하는 것도 방법입니다. 

 

 

 

 

마치면서 도움이 되셨다면 하단의 좋아요 '하트'를 눌러주시길 바랍니다. 지속적인 포스팅에 힘이 되어줍니다.

 

 

[ 관련정보 ]

 

https://sayit.tistory.com/robots.txt

댓글