AIクローラー時代の制御設計:
OAI-SearchBot・GPTBot・PerplexityBot対応とllms.txt整理
各章へクイックジャンプ:
2026年4月14日時点では、AI関連のUser-agentは「検索結果に出すための自動クロール」「学習データ収集」「収集済みデータの利用可否を示す制御トークン」「ユーザー起点の取得」に分かれてきています。ここを混同すると、検索流入を落としたり、逆に学習利用だけを止めたつもりが検索表示まで止めてしまうことがあります。本章では、実務で混線しやすいポイントを整理します。
1. AI関連User-agentの3つの役割
AI関連のUser-agentは、大きく3つに分けて考えると整理しやすくなります。
大規模言語モデルの基盤モデル改善に使うためのクロールです。OpenAI の GPTBot が代表例です。
ChatGPT Search や Perplexity のような検索体験で、回答中のリンクや引用元に出すための自動クロールです。OAI-SearchBot や PerplexityBot がここに入ります。
実際にクロールするのではなく、収集済みデータを生成AI用途に使ってよいかを示すための制御トークンです。Google-Extended や Applebot-Extended はこのカテゴリです。
重要なのは、「検索用クローラー」と「学習用クローラー」が別User-agentになっているサービスがあることです。OpenAI では OAI-SearchBot と GPTBot、Anthropic では Claude-SearchBot と ClaudeBot が分かれています。なお ChatGPT-User や Claude-User はユーザー操作に紐づく取得で、自動クロール管理の中心とは分けて考えるのが安全です。
2. 2026年時点で押さえたい主要AIクローラーと制御トークン
| 会社・サービス | User-agent | 役割 | 備考 |
|---|---|---|---|
| OpenAI(検索用) | OAI-SearchBot | ChatGPT Search の検索結果表示 | 検索流入に関わる主要クローラー |
| OpenAI(学習用) | GPTBot | 生成AI基盤モデル向けの学習データ収集 | 検索用とは分離して考える |
| OpenAI(ユーザー操作) | ChatGPT-User | ユーザー起点の個別アクセス | 自動検索クロール管理の中心ではない |
| Anthropic(検索用) | Claude-SearchBot | Claude の検索結果品質向上のためのインデックス取得 | 検索露出を見たいなら要確認 |
| Anthropic(学習用) | ClaudeBot | Anthropicの生成AIモデル改善向けデータ収集 | Claude-SearchBot と分離して判断する |
| Anthropic(ユーザー操作) | Claude-User | ユーザー起点の取得 | Claude 内での個別取得可否に関わる |
| Perplexity | PerplexityBot | Perplexityの検索インデックス構築 | robots.txt を案内している |
| Google(検索クロール本体) | Googlebot | Google Search 向けの通常クロール | Google-Extended とは別物 |
| Google(利用制御) | Google-Extended | Googleが収集したデータの生成AI用途利用を制御 | Google Search の表示やランキングとは別 |
| Google(汎用取得) | GoogleOther | GoogleのR&D向け汎用取得 | Search 本体とは別。ログ確認時に紛れやすい |
| Google(Vertex AI) | Google-CloudVertexBot | サイト所有者が依頼した Vertex AI Agents 向け取得 | 一般公開向けAI検索クローラーとは用途が違う |
| Apple(検索クロール本体) | Applebot | Spotlight・Siri・Safari などの検索表示 | Applebot-Extended を止めても本体は別 |
| Apple(利用制御) | Applebot-Extended | Appleが収集したデータの生成AI用途利用を制御 | Applebot 本体ではない |
| Common Crawl | CCBot | 汎用Webアーカイブ | 多くのAIの学習元として参照されることがある |
まずは OpenAI・Anthropic・Perplexity・Google・Apple・Common Crawl を監査対象にすると、公開サイト運用で遭遇しやすい主要User-agentはかなりカバーできます。
一方で Brave Search は専用の User-agent を明示していない とヘルプで案内しており、個別の `robots.txt` 指定先としては表に載せにくいケースです。こうした「AI検索だが専用User-agentがない」例は注記で補うのが実務的です。
逆に Googlebot と Google-Extended、Applebot と Applebot-Extended のように、本体クロールと生成AI用途の利用制御が分かれている組は、必ず別物として扱います。
実務上は、主表にある主要AIクローラーに加えて facebookexternalhit・meta-externalagent のような Meta 系User-agentや、Bytespider のような ByteDance 系User-agentをログ監視対象に入れておくと安心です。
Meta には共有プレビュー取得用の facebookexternalhit に加え、AI学習やプロダクト改善用途として説明される meta-externalagent、ユーザー起点取得用の meta-externalfetcher があります。一方、ByteDance 系は公式に `Bytespider` のUA表記は確認できますが、OpenAI・Anthropic・Google・Appleほど役割定義の一次情報が揃っていません。
そのため、本文の主表ではなく「補足監視枠」として扱い、許可・遮断の判断はアクセス実態と事業方針を見ながら決めるのが安全です。まずは `robots.txt` の対象に含めるかを検討し、その前にアクセスログと逆引きDNS、IPレンジ確認を組み合わせて「本物かどうか」を見分ける運用をおすすめします。
robots.txt は「善良なボット」との合意ルール
OpenAI、Anthropic、Google、Apple、Perplexity、Common Crawlのような主要事業者は robots.txt を案内していますが、User-agent の偽装や非準拠クローラーまでは防げません。機密情報や有料会員向けコンテンツは、robots.txt ではなく認証や署名付きURLで守る前提が必要です。
3. AI関連ボットを「許可すべきか・制限すべきか」の判断基準
許可するメリット
- AI検索での露出機会:ChatGPT SearchやPerplexityで自社コンテンツが引用・リンクされる土台になります
- ブランド認知の拡大:AI回答に自社サイトが登場することで認知が高まります
- 検索用と学習用を分離できる:検索は許可、学習は制限という方針を取りやすくなります
- ログ分析がしやすくなる:どのボットに何を許可しているかが明確になり、方針の棚卸しがしやすくなります
制限を検討すべきケース
有料コンテンツ・会員限定コンテンツ
検索流入は欲しくても、全文学習や要約再利用は避けたいケースです。検索用と学習用を分けて判断します。
個人情報・機密情報を含むページ
こうしたページは robots.txt だけに頼らず、認証やアクセス制御で保護するのが前提です。
著作権管理が厳しいコンテンツ
ライセンス条件と矛盾しないか、法務・権利者の観点も含めて方針を決める必要があります。
サーバー負荷や監査要件が厳しい場合
アクセスログを見ながら、必要なUser-agentだけを明示許可するほうが安全なケースがあります。
4. robots.txt での具体的な設定パターン
パターン①:検索用も学習用も許可する
User-agent: * Disallow: /admin/ Disallow: /api/ Disallow: /private/ # OpenAI 検索用 User-agent: OAI-SearchBot Allow: / # OpenAI 学習用 User-agent: GPTBot Allow: / # Anthropic 検索用 User-agent: Claude-SearchBot Allow: / # Anthropic 学習用 User-agent: ClaudeBot Allow: / # Perplexity User-agent: PerplexityBot Allow: / # 生成AI用途での利用も許可する場合 User-agent: Google-Extended Allow: / User-agent: Applebot-Extended Allow: / Sitemap: https://example.com/sitemap.xml
パターン②:学習用はブロック、検索用は許可する
コンテンツを学習に使われたくないが、AI検索でのリンク表示は歓迎するという場合のバランス設定です。
User-agent: * Disallow: /admin/ Disallow: /api/ # OpenAI 学習用は止める User-agent: GPTBot Disallow: / # Anthropic 学習用も止める User-agent: ClaudeBot Disallow: / # OpenAI 検索用は許可 User-agent: OAI-SearchBot Allow: / # Anthropic 検索用は許可 User-agent: Claude-SearchBot Allow: / # Perplexity の検索用は許可 User-agent: PerplexityBot Allow: / # Common Crawl も止める User-agent: CCBot Disallow: / # Google の生成AI用途利用も止める User-agent: Google-Extended Disallow: / # Apple の生成AI用途利用も止める User-agent: Applebot-Extended Disallow: / Sitemap: https://example.com/sitemap.xml
パターン③:AI関連User-agentを広く制限する
User-agent: * Disallow: /admin/ Disallow: /api/ User-agent: OAI-SearchBot Disallow: / User-agent: GPTBot Disallow: / User-agent: Claude-SearchBot Disallow: / User-agent: ClaudeBot Disallow: / User-agent: Claude-User Disallow: / User-agent: PerplexityBot Disallow: / User-agent: CCBot Disallow: / User-agent: Google-Extended Disallow: / User-agent: Applebot-Extended Disallow: / Sitemap: https://example.com/sitemap.xml
5. robots.txt・llms.txt・sitemap.xml の役割分担
クローラーに対して「ここには来るな」「ここには来てもよい」を定義します。主要な検索エンジンやAI関連ボットは尊重しますが、非準拠ボットまでは止められません。
主に検索エンジンに「発見してほしいURL」と「更新状況」を伝えるファイルです。robots.txtでブロックしたURLは含めません。
AIエージェントにサイトの目的・構造・重要コンテンツを伝える補助文書です。クロール制御ではなく理解促進が目的で、検索表示の必須条件ではありません。詳細は llms.txt 完全ガイド を参照してください。
6. AIクローラー対応のチェックリスト
全5章を通して、クローラー制御とインデックス最適化の技術を体系的に学びましょう。
AIクローラーへの対応状況を
診断しましょう
AIOGeoScanは、robots.txtのAI関連User-agent設定の有無、sitemap.xmlとの整合性、llms.txtの補助活用状況までまとめて診断します。
今すぐ自社サイトを無料診断する7. 参考資料
- OpenAI: Overview of OpenAI crawlers
- Anthropic: Does Anthropic crawl data from the web, and how can site owners block the crawler?
- Google for Developers: List of Google's common crawlers
- Apple: About Applebot
- Meta for Developers: Meta Web Crawlers
- Perplexity Help Center: robots.txt への対応
- Common Crawl: CCBot
- Brave Search Help: Brave Search Crawler
- Douyin Open Platform: 検索訪問UA(Bytespider)