robot.txt 파일의 user-agent 종류

By | 9월 12, 2025
robot.txt 파일의 user-agent 종류

User-agent는 웹사이트를 방문하는 크롤러의 종류를 식별하는 데 사용되는 문자열로, 다양한 목적에 따라 여러 유형으로 분류됩니다. 이들을 크게 세 가지 범주, 즉 주요 검색 엔진 봇, AI 챗봇/LLM 봇, 그리고 기타 유용한 봇으로 나눠 볼 수 있습니다. 봇의 종류는 끊임없이 추가되고 변화하고 있으므로 지속적인 확인이 필요합니다.


주요 검색 엔진 봇

이 봇들은 웹 콘텐츠를 수집하고 분석하여 검색 결과에 반영하는 역할을 합니다.

  • Google (구글)
    • Googlebot: 구글 검색의 핵심 크롤러로, 웹페이지의 텍스트를 주로 수집합니다.
    • Googlebot-Image, Googlebot-Video: 각각 이미지와 동영상 파일을 수집해 구글 이미지, 동영상 검색에 사용합니다.
    • AdsBot-Google: 구글 광고 랜딩 페이지의 품질을 확인하는 데 사용됩니다.
    • Mediapartners-Google: 구글 애드센스 콘텐츠를 크롤링합니다.
    • Google-Extended: AI 모델 학습용 데이터를 수집하는 봇으로, 기존 봇과 다르게 robots.txt에서 별도로 제어할 수 있습니다.
  • Bing (빙)
    • Bingbot: 마이크로소프트의 빙 검색 엔진 기본 크롤러입니다.
    • AdIdxBot: 빙 광고를 위한 색인 작업을 수행합니다.
    • BingPreview: 검색 결과에 표시될 페이지 미리 보기를 생성합니다.
  • Baidu (바이두 – 중국)
    • Baiduspider: 중국의 대표적인 검색 엔진 바이두의 주력 크롤러입니다. 이미지, 모바일 등 여러 하위 봇이 존재합니다.
  • Yandex (얀덱스 – 러시아)
    • YandexBot: 러시아의 얀덱스 검색 엔진 기본 크롤러입니다.
  • Naver (네이버 – 한국)
    • Yeti: 네이버 검색의 주요 크롤러입니다.
  • Daum (다음 – 한국)
    • Daumoa: 다음 검색의 크롤러입니다.
  • DuckDuckGo (덕덕고)
    • DuckDuckBot: 개인 정보 보호를 강조하는 덕덕고 검색 엔진의 크롤러입니다.
  • Yahoo!
    • Slurp: 과거 야후 검색의 주요 크롤러였으나, 현재는 대부분 빙봇이 그 역할을 대체합니다.

AI 챗봇 및 LLM (대규모 언어 모델) 봇

최근에는 인공지능 기술 발달로 인해 LLM 학습이나 챗봇의 실시간 정보 검색을 위한 봇이 등장했습니다.

  • GPTBot: OpenAI가 챗GPT 등 GPT 모델 학습용 웹 데이터를 수집할 때 사용합니다.
  • OAI-SearchBot: OpenAI의 검색 모델이 실시간 정보를 색인하는 데 활용됩니다.
  • ChatGPT-User: 챗GPT가 사용자의 요청에 따라 특정 URL 정보를 가져올 때 사용됩니다.
  • anthropic-ai / ClaudeBot: 앤트로픽의 클로드 모델 학습과 정보 검색에 사용되는 봇입니다.
  • PerplexityBot: 퍼플렉시티 AI 검색 엔진이 데이터를 수집할 때 사용됩니다.

기타 유용한 봇

이 봇들은 검색 엔진 외의 목적으로 웹사이트 정보를 수집합니다.

  • SEO 도구 봇:
    • AhrefsBot: 인기 SEO 분석 도구인 Ahrefs에서 링크와 콘텐츠를 분석하는 데 사용됩니다.
    • SemrushBot: 또 다른 SEO 도구 Semrush가 웹사이트를 분석하고 키워드를 조사하는 데 사용합니다.
  • 소셜 미디어 봇:
    • FacebookExternalHit: 페이스북에서 링크를 공유할 때 미리 보기 정보를 가져오는 데 사용됩니다.
    • Twitterbot: 트위터에서 링크 미리 보기를 가져올 때 사용됩니다.
    • LinkedInBot: 링크드인에서 링크 공유 시 사용됩니다.
  • 아카이브 봇:
    • ia_archiver: 인터넷 아카이브의 ‘웨이백 머신’이 웹페이지를 보존하는 데 사용합니다.

*User-agent: 의 의미

robots.txt 파일에서 User-agent: *는 특정 봇이 아닌 모든 봇에게 적용되는 규칙을 의미합니다. 만약 특정 봇에 대한 규칙이 따로 설정되어 있지 않다면, 모든 봇은 이 기본 규칙을 따르게 됩니다.

User-agent의 종류는 매우 다양하며, 웹사이트 소유자는 이들을 적절히 제어함으로써 효율적인 웹사이트 운영과 원하는 콘텐츠의 노출을 관리할 수 있습니다. 봇들은 계속해서 진화하고 새로운 봇들이 등장하므로, 주기적으로 웹 로그를 확인하고 필요한 경우 robots.txt를 업데이트하는 것이 좋습니다.

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다