AIクローラー時代の制御設計:
OAI-SearchBot・GPTBot・PerplexityBot対応とllms.txt整理

2026年4月14日時点では、AI関連のUser-agentは「検索結果に出すための自動クロール」「学習データ収集」「収集済みデータの利用可否を示す制御トークン」「ユーザー起点の取得」に分かれてきています。ここを混同すると、検索流入を落としたり、逆に学習利用だけを止めたつもりが検索表示まで止めてしまうことがあります。本章では、実務で混線しやすいポイントを整理します。

1. AI関連User-agentの3つの役割

AI関連のUser-agentは、大きく3つに分けて考えると整理しやすくなります。

① 学習データ収集

大規模言語モデルの基盤モデル改善に使うためのクロールです。OpenAI の GPTBot が代表例です。

② 検索・引用のための自動クロール

ChatGPT Search や Perplexity のような検索体験で、回答中のリンクや引用元に出すための自動クロールです。OAI-SearchBotPerplexityBot がここに入ります。

③ 生成AI用途の利用制御

実際にクロールするのではなく、収集済みデータを生成AI用途に使ってよいかを示すための制御トークンです。Google-ExtendedApplebot-Extended はこのカテゴリです。

重要なのは、「検索用クローラー」と「学習用クローラー」が別User-agentになっているサービスがあることです。OpenAI では OAI-SearchBotGPTBot、Anthropic では Claude-SearchBotClaudeBot が分かれています。なお ChatGPT-UserClaude-User はユーザー操作に紐づく取得で、自動クロール管理の中心とは分けて考えるのが安全です。

2. 2026年時点で押さえたい主要AIクローラーと制御トークン

会社・サービスUser-agent役割備考
OpenAI(検索用)OAI-SearchBotChatGPT Search の検索結果表示検索流入に関わる主要クローラー
OpenAI(学習用)GPTBot生成AI基盤モデル向けの学習データ収集検索用とは分離して考える
OpenAI(ユーザー操作)ChatGPT-Userユーザー起点の個別アクセス自動検索クロール管理の中心ではない
Anthropic(検索用)Claude-SearchBotClaude の検索結果品質向上のためのインデックス取得検索露出を見たいなら要確認
Anthropic(学習用)ClaudeBotAnthropicの生成AIモデル改善向けデータ収集Claude-SearchBot と分離して判断する
Anthropic(ユーザー操作)Claude-Userユーザー起点の取得Claude 内での個別取得可否に関わる
PerplexityPerplexityBotPerplexityの検索インデックス構築robots.txt を案内している
Google(検索クロール本体)GooglebotGoogle Search 向けの通常クロールGoogle-Extended とは別物
Google(利用制御)Google-ExtendedGoogleが収集したデータの生成AI用途利用を制御Google Search の表示やランキングとは別
Google(汎用取得)GoogleOtherGoogleのR&D向け汎用取得Search 本体とは別。ログ確認時に紛れやすい
Google(Vertex AI)Google-CloudVertexBotサイト所有者が依頼した Vertex AI Agents 向け取得一般公開向けAI検索クローラーとは用途が違う
Apple(検索クロール本体)ApplebotSpotlight・Siri・Safari などの検索表示Applebot-Extended を止めても本体は別
Apple(利用制御)Applebot-ExtendedAppleが収集したデータの生成AI用途利用を制御Applebot 本体ではない
Common CrawlCCBot汎用Webアーカイブ多くのAIの学習元として参照されることがある
網羅的に押さえるなら、この見方が実務向き

まずは OpenAI・Anthropic・Perplexity・Google・Apple・Common Crawl を監査対象にすると、公開サイト運用で遭遇しやすい主要User-agentはかなりカバーできます。

一方で Brave Search は専用の User-agent を明示していない とヘルプで案内しており、個別の `robots.txt` 指定先としては表に載せにくいケースです。こうした「AI検索だが専用User-agentがない」例は注記で補うのが実務的です。

逆に GooglebotGoogle-ExtendedApplebotApplebot-Extended のように、本体クロールと生成AI用途の利用制御が分かれている組は、必ず別物として扱います。

補足で監視したい Meta系・ByteDance系User-agent

実務上は、主表にある主要AIクローラーに加えて facebookexternalhitmeta-externalagent のような Meta 系User-agentや、Bytespider のような ByteDance 系User-agentをログ監視対象に入れておくと安心です。

Meta には共有プレビュー取得用の facebookexternalhit に加え、AI学習やプロダクト改善用途として説明される meta-externalagent、ユーザー起点取得用の meta-externalfetcher があります。一方、ByteDance 系は公式に `Bytespider` のUA表記は確認できますが、OpenAI・Anthropic・Google・Appleほど役割定義の一次情報が揃っていません。

実務メモ

そのため、本文の主表ではなく「補足監視枠」として扱い、許可・遮断の判断はアクセス実態と事業方針を見ながら決めるのが安全です。まずは `robots.txt` の対象に含めるかを検討し、その前にアクセスログと逆引きDNS、IPレンジ確認を組み合わせて「本物かどうか」を見分ける運用をおすすめします。

robots.txt は「善良なボット」との合意ルール
OpenAI、Anthropic、Google、Apple、Perplexity、Common Crawlのような主要事業者は robots.txt を案内していますが、User-agent の偽装や非準拠クローラーまでは防げません。機密情報や有料会員向けコンテンツは、robots.txt ではなく認証や署名付きURLで守る前提が必要です。

3. AI関連ボットを「許可すべきか・制限すべきか」の判断基準

許可するメリット

  • AI検索での露出機会:ChatGPT SearchやPerplexityで自社コンテンツが引用・リンクされる土台になります
  • ブランド認知の拡大:AI回答に自社サイトが登場することで認知が高まります
  • 検索用と学習用を分離できる:検索は許可、学習は制限という方針を取りやすくなります
  • ログ分析がしやすくなる:どのボットに何を許可しているかが明確になり、方針の棚卸しがしやすくなります

制限を検討すべきケース

有料コンテンツ・会員限定コンテンツ

検索流入は欲しくても、全文学習や要約再利用は避けたいケースです。検索用と学習用を分けて判断します。

個人情報・機密情報を含むページ

こうしたページは robots.txt だけに頼らず、認証やアクセス制御で保護するのが前提です。

著作権管理が厳しいコンテンツ

ライセンス条件と矛盾しないか、法務・権利者の観点も含めて方針を決める必要があります。

サーバー負荷や監査要件が厳しい場合

アクセスログを見ながら、必要なUser-agentだけを明示許可するほうが安全なケースがあります。

4. robots.txt での具体的な設定パターン

パターン①:検索用も学習用も許可する

AI関連ボットを広く許可する例robots.txt
User-agent: *
Disallow: /admin/
Disallow: /api/
Disallow: /private/

# OpenAI 検索用
User-agent: OAI-SearchBot
Allow: /

# OpenAI 学習用
User-agent: GPTBot
Allow: /

# Anthropic 検索用
User-agent: Claude-SearchBot
Allow: /

# Anthropic 学習用
User-agent: ClaudeBot
Allow: /

# Perplexity
User-agent: PerplexityBot
Allow: /

# 生成AI用途での利用も許可する場合
User-agent: Google-Extended
Allow: /

User-agent: Applebot-Extended
Allow: /

Sitemap: https://example.com/sitemap.xml

パターン②:学習用はブロック、検索用は許可する

コンテンツを学習に使われたくないが、AI検索でのリンク表示は歓迎するという場合のバランス設定です。

学習ブロック・検索用許可のハイブリッド設定robots.txt
User-agent: *
Disallow: /admin/
Disallow: /api/

# OpenAI 学習用は止める
User-agent: GPTBot
Disallow: /

# Anthropic 学習用も止める
User-agent: ClaudeBot
Disallow: /

# OpenAI 検索用は許可
User-agent: OAI-SearchBot
Allow: /

# Anthropic 検索用は許可
User-agent: Claude-SearchBot
Allow: /

# Perplexity の検索用は許可
User-agent: PerplexityBot
Allow: /

# Common Crawl も止める
User-agent: CCBot
Disallow: /

# Google の生成AI用途利用も止める
User-agent: Google-Extended
Disallow: /

# Apple の生成AI用途利用も止める
User-agent: Applebot-Extended
Disallow: /

Sitemap: https://example.com/sitemap.xml

パターン③:AI関連User-agentを広く制限する

保護を優先して広く制限する例robots.txt
User-agent: *
Disallow: /admin/
Disallow: /api/

User-agent: OAI-SearchBot
Disallow: /

User-agent: GPTBot
Disallow: /

User-agent: Claude-SearchBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Claude-User
Disallow: /

User-agent: PerplexityBot
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: Applebot-Extended
Disallow: /

Sitemap: https://example.com/sitemap.xml

5. robots.txt・llms.txt・sitemap.xml の役割分担

3つのファイルの役割分担まとめ
robots.txt:「アクセス制御のルール」

クローラーに対して「ここには来るな」「ここには来てもよい」を定義します。主要な検索エンジンやAI関連ボットは尊重しますが、非準拠ボットまでは止められません。

sitemap.xml:「公開URLの地図」

主に検索エンジンに「発見してほしいURL」と「更新状況」を伝えるファイルです。robots.txtでブロックしたURLは含めません。

llms.txt:「AIへの補助的な文脈提供」

AIエージェントにサイトの目的・構造・重要コンテンツを伝える補助文書です。クロール制御ではなく理解促進が目的で、検索表示の必須条件ではありません。詳細は llms.txt 完全ガイド を参照してください。

6. AIクローラー対応のチェックリスト

検索用と学習用を分けて判断しているOpenAIのように役割が分かれている場合、方針も分けると意図しない流入減を防ぎやすくなります。
OAI-SearchBot・GPTBot・Claude-SearchBot・ClaudeBot・PerplexityBot・CCBotなどを目的別に設定している少なくとも主要User-agentに対して、許可なのか制限なのかが明示されている状態を目指します。
Meta系・ByteDance系は補足監視対象としてログを見ている一次情報が薄いUser-agentは、まずアクセス実態を把握し、必要なら個別制御やWAF設定まで含めて判断します。
llms.txt は補助的に使っているAI向けの文脈整理には有用ですが、検索表示の土台は robots.txt・sitemap.xml・HTML本体です。llms.txt を前提条件だと考えないのが安全です。
有料・機密・著作権コンテンツは別レイヤーでも保護しているrobots.txt のDisallowだけでなく、認証・署名付きURL・アクセス制御も含めて守ります。

AIクローラーへの対応状況を
診断しましょう

AIOGeoScanは、robots.txtのAI関連User-agent設定の有無、sitemap.xmlとの整合性、llms.txtの補助活用状況までまとめて診断します。

今すぐ自社サイトを無料診断する
Editorial Trust Signals

このナレッジベースの編集方針

`AIOGeoScan Knowledge` は、Bennu Inc. が運営する AI検索・構造化データ・クローラー制御に関する実務ナレッジです。 Google Search Central、Schema.org、OpenAI などの一次情報を優先し、観測ベースの実務知見は本文中で区別して扱います。

運営主体
Bennu Inc. / AIOGeoScan
更新方針
仕様変更や検索機能の更新にあわせて都度改訂
優先ソース
公式ドキュメント・標準仕様・公式ヘルプ
補助ソース
実装観測・運用知見・再現性のある検証結果

あなたのサイト、AIに正しく伝わっていますか?

解説を読み終えたら、実際にあなたのサイトを診断してみましょう。
100項目以上の診断で、AI時代の構造課題を可視化します。

無料で診断を開始する