robots.txt / sitemap.xml
完全ガイド
Googleボットから最新のAIクローラーまで、クローラーを「正しく導く」技術。robots.txtによる制御設計、sitemap.xmlによるインデックス最適化、そしてAIクローラー時代の現実的なアクセス制御を5章で体系化します。
「見せたいページ」と「見せたくないページ」を正しく伝える技術
あなたのWebサイトには、Googleに積極的にインデックスしてほしいページと、クロールされたくないページが混在しているはずです。管理画面、テスト環境、一時的なキャンペーンページ、検索結果ページのような重複コンテンツ。これらを適切に制御できていないと、クロールバジェットが無駄に消費され、本当に重要なページのインデックスが遅くなることがあります。
さらに2024〜2026年には、ChatGPT SearchやPerplexityのようなAI検索向けクローラー、学習用クローラー、データ利用可否を示す専用トークンまで登場しました。これらに対しても、検索流入・学習利用・機密保護のバランスを意識した方針を持つことがサイト運営者の新しい課題です。本書は、こうしたクローラー制御の全体像をひとつずつ整理します。
Table of Contents
基礎理解から実践的な構文、AIクローラー対応、運用フローまで、5章で体系的に学習できます。
基礎編:robots.txt / sitemap.xml の役割と仕組みの違い
robots.txtとsitemap.xmlはどちらもクローラーと関わるファイルですが、役割は真逆です。「何を許可し何を禁止するか」と「どのURLを発見してほしいか」の違いを正しく理解し、llms.txtとの使い分けまで把握します。
robots.txt 実践:クローラー制御の完全構文ガイド
User-agent・Disallow・Allow・Crawl-delayの完全な構文解説。特定のボットを許可・ブロックする方法、ワイルドカードの使い方、よくある設定ミスとその修正方法まで網羅します。
sitemap.xml 実践:インデックス最適化の設計と動的生成
XML Sitemapの構造、Googleが重視するlastmod、画像・動画サイトマップ、Next.js での動的生成、Google Search Consoleへの送信フローまでを解説します。
AIクローラー時代の制御設計:OAI-SearchBot・GPTBot・llms.txtとの連携
ChatGPT Search、Perplexity、学習用クローラーなど主要なAI関連ボットの役割と、robots.txtでの適切な制御方法を解説します。許可すべきか制限すべきかの判断基準と、llms.txtとの役割分担も整理します。
運用・診断編:Google Search Console連携とAIOGeoScanによる検証
robots.txt・sitemap.xmlの実装後の継続的な運用方法。Google Search Consoleでのクロール統計確認、サイトマップ送信・エラー監視、AIOGeoScanを使った自動検証フローを解説します。