ONLINE BOOKFREE KNOWLEDGE BASE

robots.txt / sitemap.xml
完全ガイド

Googleボットから最新のAIクローラーまで、クローラーを「正しく導く」技術。robots.txtによる制御設計、sitemap.xmlによるインデックス最適化、そしてAIクローラー時代の現実的なアクセス制御を5章で体系化します。

🏢Bennu Inc.||

「見せたいページ」と「見せたくないページ」を正しく伝える技術

あなたのWebサイトには、Googleに積極的にインデックスしてほしいページと、クロールされたくないページが混在しているはずです。管理画面、テスト環境、一時的なキャンペーンページ、検索結果ページのような重複コンテンツ。これらを適切に制御できていないと、クロールバジェットが無駄に消費され、本当に重要なページのインデックスが遅くなることがあります。

さらに2024〜2026年には、ChatGPT SearchやPerplexityのようなAI検索向けクローラー、学習用クローラー、データ利用可否を示す専用トークンまで登場しました。これらに対しても、検索流入・学習利用・機密保護のバランスを意識した方針を持つことがサイト運営者の新しい課題です。本書は、こうしたクローラー制御の全体像をひとつずつ整理します。

Table of Contents

基礎理解から実践的な構文、AIクローラー対応、運用フローまで、5章で体系的に学習できます。

01

基礎編:robots.txt / sitemap.xml の役割と仕組みの違い

robots.txtとsitemap.xmlはどちらもクローラーと関わるファイルですが、役割は真逆です。「何を許可し何を禁止するか」と「どのURLを発見してほしいか」の違いを正しく理解し、llms.txtとの使い分けまで把握します。

02

robots.txt 実践:クローラー制御の完全構文ガイド

User-agent・Disallow・Allow・Crawl-delayの完全な構文解説。特定のボットを許可・ブロックする方法、ワイルドカードの使い方、よくある設定ミスとその修正方法まで網羅します。

ROBOTS.TXTSYNTAX
この章を読む →
03

sitemap.xml 実践:インデックス最適化の設計と動的生成

XML Sitemapの構造、Googleが重視するlastmod、画像・動画サイトマップ、Next.js での動的生成、Google Search Consoleへの送信フローまでを解説します。

SITEMAP.XMLINDEX
この章を読む →
04

AIクローラー時代の制御設計:OAI-SearchBot・GPTBot・llms.txtとの連携

ChatGPT Search、Perplexity、学習用クローラーなど主要なAI関連ボットの役割と、robots.txtでの適切な制御方法を解説します。許可すべきか制限すべきかの判断基準と、llms.txtとの役割分担も整理します。

AI CRAWLERSCONTROL
この章を読む →
05

運用・診断編:Google Search Console連携とAIOGeoScanによる検証

robots.txt・sitemap.xmlの実装後の継続的な運用方法。Google Search Consoleでのクロール統計確認、サイトマップ送信・エラー監視、AIOGeoScanを使った自動検証フローを解説します。

OPERATIONSMONITORING
この章を読む →
Editorial Trust Signals

このナレッジベースの編集方針

`AIOGeoScan Knowledge` は、Bennu Inc. が運営する AI検索・構造化データ・クローラー制御に関する実務ナレッジです。 Google Search Central、Schema.org、OpenAI などの一次情報を優先し、観測ベースの実務知見は本文中で区別して扱います。

運営主体
Bennu Inc. / AIOGeoScan
更新方針
仕様変更や検索機能の更新にあわせて都度改訂
優先ソース
公式ドキュメント・標準仕様・公式ヘルプ
補助ソース
実装観測・運用知見・再現性のある検証結果

あなたのサイト、AIに正しく伝わっていますか?

解説を読み終えたら、実際にあなたのサイトを診断してみましょう。
100項目以上の診断で、AI時代の構造課題を可視化します。

無料で診断を開始する