Crawler Control / AI Crawlers

AIクローラー時代の制御設計：
OAI-SearchBot・GPTBot・PerplexityBot対応とllms.txt整理

2026年4月12日公開・2026年4月14日更新•Published by Bennu Inc.•読了目安: 約9分

📙 シリーズ：robots.txt / sitemap.xml 完全ガイド

各章へクイックジャンプ：

基礎編

robots.txt / sitemap.xmlの役割と仕組み

OAI-SearchBot・GPTBot時代の制御設計

運用・診断編

Search Console連携とAIOGeoScan活用

2026年4月14日時点では、AI関連のUser-agentは「検索結果に出すための自動クロール」「学習データ収集」「収集済みデータの利用可否を示す制御トークン」「ユーザー起点の取得」に分かれてきています。ここを混同すると、検索流入を落としたり、逆に学習利用だけを止めたつもりが検索表示まで止めてしまうことがあります。本章では、実務で混線しやすいポイントを整理します。

1. AI関連User-agentの3つの役割

AI関連のUser-agentは、大きく3つに分けて考えると整理しやすくなります。

① 学習データ収集

大規模言語モデルの基盤モデル改善に使うためのクロールです。OpenAI の GPTBot が代表例です。

② 検索・引用のための自動クロール

ChatGPT Search や Perplexity のような検索体験で、回答中のリンクや引用元に出すための自動クロールです。OAI-SearchBot や PerplexityBot がここに入ります。

③ 生成AI用途の利用制御

実際にクロールするのではなく、収集済みデータを生成AI用途に使ってよいかを示すための制御トークンです。Google-Extended や Applebot-Extended はこのカテゴリです。

重要なのは、「検索用クローラー」と「学習用クローラー」が別User-agentになっているサービスがあることです。OpenAI では OAI-SearchBot と GPTBot、Anthropic では Claude-SearchBot と ClaudeBot が分かれています。なお ChatGPT-User や Claude-User はユーザー操作に紐づく取得で、自動クロール管理の中心とは分けて考えるのが安全です。

2. 2026年時点で押さえたい主要AIクローラーと制御トークン

会社・サービス	User-agent	役割	備考
OpenAI（検索用）	`OAI-SearchBot`	ChatGPT Search の検索結果表示	検索流入に関わる主要クローラー
OpenAI（学習用）	`GPTBot`	生成AI基盤モデル向けの学習データ収集	検索用とは分離して考える
OpenAI（ユーザー操作）	`ChatGPT-User`	ユーザー起点の個別アクセス	自動検索クロール管理の中心ではない
Anthropic（検索用）	`Claude-SearchBot`	Claude の検索結果品質向上のためのインデックス取得	検索露出を見たいなら要確認
Anthropic（学習用）	`ClaudeBot`	Anthropicの生成AIモデル改善向けデータ収集	Claude-SearchBot と分離して判断する
Anthropic（ユーザー操作）	`Claude-User`	ユーザー起点の取得	Claude 内での個別取得可否に関わる
Perplexity	`PerplexityBot`	Perplexityの検索インデックス構築	robots.txt を案内している
Google（検索クロール本体）	`Googlebot`	Google Search 向けの通常クロール	Google-Extended とは別物
Google（利用制御）	`Google-Extended`	Googleが収集したデータの生成AI用途利用を制御	Google Search の表示やランキングとは別
Google（汎用取得）	`GoogleOther`	GoogleのR&D向け汎用取得	Search 本体とは別。ログ確認時に紛れやすい
Google（Vertex AI）	`Google-CloudVertexBot`	サイト所有者が依頼した Vertex AI Agents 向け取得	一般公開向けAI検索クローラーとは用途が違う
Apple（検索クロール本体）	`Applebot`	Spotlight・Siri・Safari などの検索表示	Applebot-Extended を止めても本体は別
Apple（利用制御）	`Applebot-Extended`	Appleが収集したデータの生成AI用途利用を制御	Applebot 本体ではない
Common Crawl	`CCBot`	汎用Webアーカイブ	多くのAIの学習元として参照されることがある

網羅的に押さえるなら、この見方が実務向き

まずは OpenAI・Anthropic・Perplexity・Google・Apple・Common Crawl を監査対象にすると、公開サイト運用で遭遇しやすい主要User-agentはかなりカバーできます。

一方で Brave Search は専用の User-agent を明示していない とヘルプで案内しており、個別の `robots.txt` 指定先としては表に載せにくいケースです。こうした「AI検索だが専用User-agentがない」例は注記で補うのが実務的です。

逆に Googlebot と Google-Extended、Applebot と Applebot-Extended のように、本体クロールと生成AI用途の利用制御が分かれている組は、必ず別物として扱います。

補足で監視したい Meta系・ByteDance系User-agent

実務上は、主表にある主要AIクローラーに加えて facebookexternalhit・meta-externalagent のような Meta 系User-agentや、Bytespider のような ByteDance 系User-agentをログ監視対象に入れておくと安心です。

Meta には共有プレビュー取得用の facebookexternalhit に加え、AI学習やプロダクト改善用途として説明される meta-externalagent、ユーザー起点取得用の meta-externalfetcher があります。一方、ByteDance 系は公式に `Bytespider` のUA表記は確認できますが、OpenAI・Anthropic・Google・Appleほど役割定義の一次情報が揃っていません。

実務メモ

そのため、本文の主表ではなく「補足監視枠」として扱い、許可・遮断の判断はアクセス実態と事業方針を見ながら決めるのが安全です。まずは `robots.txt` の対象に含めるかを検討し、その前にアクセスログと逆引きDNS、IPレンジ確認を組み合わせて「本物かどうか」を見分ける運用をおすすめします。

robots.txt は「善良なボット」との合意ルール
OpenAI、Anthropic、Google、Apple、Perplexity、Common Crawlのような主要事業者は robots.txt を案内していますが、User-agent の偽装や非準拠クローラーまでは防げません。機密情報や有料会員向けコンテンツは、robots.txt ではなく認証や署名付きURLで守る前提が必要です。

3. AI関連ボットを「許可すべきか・制限すべきか」の判断基準

許可するメリット

AI検索での露出機会：ChatGPT SearchやPerplexityで自社コンテンツが引用・リンクされる土台になります
ブランド認知の拡大：AI回答に自社サイトが登場することで認知が高まります
検索用と学習用を分離できる：検索は許可、学習は制限という方針を取りやすくなります
ログ分析がしやすくなる：どのボットに何を許可しているかが明確になり、方針の棚卸しがしやすくなります

制限を検討すべきケース

有料コンテンツ・会員限定コンテンツ

検索流入は欲しくても、全文学習や要約再利用は避けたいケースです。検索用と学習用を分けて判断します。

個人情報・機密情報を含むページ

こうしたページは robots.txt だけに頼らず、認証やアクセス制御で保護するのが前提です。

著作権管理が厳しいコンテンツ

ライセンス条件と矛盾しないか、法務・権利者の観点も含めて方針を決める必要があります。

サーバー負荷や監査要件が厳しい場合

アクセスログを見ながら、必要なUser-agentだけを明示許可するほうが安全なケースがあります。

4. robots.txt での具体的な設定パターン

パターン①：検索用も学習用も許可する

AI関連ボットを広く許可する例robots.txt

User-agent: *
Disallow: /admin/
Disallow: /api/
Disallow: /private/

# OpenAI 検索用
User-agent: OAI-SearchBot
Allow: /

# OpenAI 学習用
User-agent: GPTBot
Allow: /

# Anthropic 検索用
User-agent: Claude-SearchBot
Allow: /

# Anthropic 学習用
User-agent: ClaudeBot
Allow: /

# Perplexity
User-agent: PerplexityBot
Allow: /

# 生成AI用途での利用も許可する場合
User-agent: Google-Extended
Allow: /

User-agent: Applebot-Extended
Allow: /

Sitemap: https://example.com/sitemap.xml

パターン②：学習用はブロック、検索用は許可する

コンテンツを学習に使われたくないが、AI検索でのリンク表示は歓迎するという場合のバランス設定です。

学習ブロック・検索用許可のハイブリッド設定robots.txt

User-agent: *
Disallow: /admin/
Disallow: /api/

# OpenAI 学習用は止める
User-agent: GPTBot
Disallow: /

# Anthropic 学習用も止める
User-agent: ClaudeBot
Disallow: /

# OpenAI 検索用は許可
User-agent: OAI-SearchBot
Allow: /

# Anthropic 検索用は許可
User-agent: Claude-SearchBot
Allow: /

# Perplexity の検索用は許可
User-agent: PerplexityBot
Allow: /

# Common Crawl も止める
User-agent: CCBot
Disallow: /

# Google の生成AI用途利用も止める
User-agent: Google-Extended
Disallow: /

# Apple の生成AI用途利用も止める
User-agent: Applebot-Extended
Disallow: /

Sitemap: https://example.com/sitemap.xml

パターン③：AI関連User-agentを広く制限する

保護を優先して広く制限する例robots.txt

User-agent: *
Disallow: /admin/
Disallow: /api/

User-agent: OAI-SearchBot
Disallow: /

User-agent: GPTBot
Disallow: /

User-agent: Claude-SearchBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Claude-User
Disallow: /

User-agent: PerplexityBot
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: Applebot-Extended
Disallow: /

Sitemap: https://example.com/sitemap.xml