robots.txtの指示をGoogle検索はどのように解釈するのか【Google検索セントラルの解説】
Google社は、robots.txtに記述された指示に対する、Google検索の解釈の仕方に関するガイドをGoogle検索セントラル上で公開しています。それによると、robots.txtでは、Robots Exclusion Protocol(REP)と呼ばれる規約を用いて、クローラーに指示が出せるとのことです。
参考(外部):Googleによるrobots.txtの指定の解釈
本ガイドは、Google検索セントラルで公開される、robots.txtに関するトピックの1つとして掲載されています。別ガイドとあわせて読むことで、robots.txtの扱い方や理解度が深まります。
robots.txtの関連ガイド | |
---|---|
robots.txt概要 | robots.txtの書き方 |
robots.txtの更新 | – |
robots.txtとRobots Exclusion Protocol(REP)の関係性
サイト運用者は、robots.txt上でGooglebotのクロールの動きに対する指示を出せます。たとえば、「Googlebotは自社ページをクロールしないこと」といった要領で指示します。このとき、Robots Exclusion Protocol(REP)と呼ばれる規約に則って、robots.txtに指示文を記述します。
ガイド「Googleによるrobots.txtの指定の解釈」の概要と読者
Google検索セントラルには、Google検索がrobots.txtとREPをどのように読み取るのかを説明するガイドが用意されています。
参考(外部):Googleによるrobots.txtの指定の解釈
それによると、Googlebotは、WEBサイトをクロールする際に、まずはrobot.txtから読み込むとのことです。robot.txt内の指示内容に従って、WEBサイト内でクロールできるページを特定するといいます。
本ガイドを読むべき人
本ガイドを読むことで、Google検索がrobot.txtを読み込む仕組みの理解が深まります。主に、robot.txtを実装するWEBエンジニアが読むべきガイドとなっています。
本ガイドは、とくに、SEO対策で特定のディレクトリ以下のページをインデックスしたくないとき、効率的にクローリングしてほしいケースで役立ちます。このほか、会員制サイト、社内向けの情報共有サイト、テストサイトなどで、そもそもクロールが不要なコンテンツのクロールを避けるように指示したい際にも活用してください。
ただし、社外秘など、外部に漏れてはいけない情報を扱う場合は、robot.txtだけでなく、パスワード設定などでセキュリティを高める必要がありますので注意してください。
ガイド「Googleによるrobots.txtの指定の解釈」の構成と読み方
本ガイドは、下記の項目(見出し)で構成されています。
- txtファイルとは
- ファイルの場所と有効範囲
- 有効なtxtのURLの例
- エラーとHTTPステータスコードの処理
- キャッシュ
- ファイル形式
- 構文
- 行とルールのグループ化
- ユーザーエージェントの優先順位
- パスの値に基づくURLの一致判定
- ルールの優先順位
ガイド項目「robots.txtファイルとは」の解説
本ガイド項目では、robot.txtに対する基本知識の説明が載っています。ここで説明されている事項に関しては、別ガイド「robots.txtの概要」、「robots.txtの書き方、設定と送信」で詳しく書かれています。
東京SEOメーカー(本サイト)でも、robots.txtを解説する記事を用意していますので、あわせて参考にしてください。
関連記事:robots.txtとは?設定する目的や具体的な書き方を解説
ガイド項目「ファイルの場所と有効範囲」の解説
本ガイド項目では、robots.txtファイルをサーバー上のどの部分に設置すべきかについて説明されています。それによると、サーバー上のWEBサイトのトップディレクトリに配置すべきとのことです。
このほか、通信時の規格を指すプロトコルとしてHTTP、HTTPS、FTPのいずれかを用いる必要があるといいます。この理由は、Google検索がサポートしているプロトコルが上記の3つであるためです。なお、それぞれプロトコルは、次のような意味を持ちます。
プロトコル名 | 解説 |
---|---|
HTTP | WEBブラウザとサーバー間でデータ通信するときの通信規格のこと。ページURLでは、冒頭に「http://」と表記される |
HTTPS | HTTPがSSL証明(データ送受信の暗号化)を取得した状態の通信規格のこと。ページURLでは、冒頭に「https://」と表記される |
FTP | ファイル送受信ソフトウェアとサーバー間でファイルの送受信をするための通信規格のことページURLでは、冒頭に「ftp://」と表記される |
ガイド項目「有効なrobots.txtのURLの例」の解説
本ガイド項目では、サーバー内における、robots.txtファイルの指示が有効となる範囲の事例が紹介されています。
有効範囲に関しては、原則的に、robots.txtファイルが設置されたディレクトリ以下が該当します。たとえば、東京SEOメーカーの場合は、robots.txtファイルを下記に設置しています。
サーバー上のフォルダ「switchitmaker2.com」内にrobots.txtが置かれています。この場合は、フォルダ「switchitmaker2.com」を含む、それ以下に配置されたファイルに影響を及ぼすということです。逆に下記条件では、robots.txtの効果をえられませんので注意してください。
- 別のホスト(ドメイン)以下のすべてのファイル
- サブドメイン以下のすべてのファイル
- 別のプロトコルを採用しているケースにおける、すべてのファイル
- ホスト(ドメイン)にIPアドレスを指定したケースにおける、すべてのファイル
- ホスト(ドメイン)に標準以外のポート番号を設定したケースにおける、すべてのファイル
ガイド項目「エラーとHTTPステータスコードの処理」の解説
本ガイド項目では、HTTPステータスコード別に、Googlebotがどのような処理をするのかが紹介されています。
本ガイド項目に補足すると、Googlebotは、robots.txtにアクセスのリクエストを出した際に、サーバーが応答します。このときの応答内容をHTTPステータスコードといいます。
通常、「2xx」のように、2からはじまる3桁の数字がHTTPステータスコードとして返されます。この応答があった場合は、アクセスに成功したことを意味します。つまり、Googlebotは、そのまま、robots.txtを読み込むということです。
コード | 解説 |
---|---|
2xx | リクエスト成功を指すHTTPステータスコード |
その他の「3xx」「4xx」「5xx」のように、2以外の数字からはじまるHTTPステータスコードが返された場合は、エラーや転送設定が処理されている状態だとGooglebotは認識します。これらのケースでは、Googlebotは、robots.txtを読み込みません。
コード | 解説 |
---|---|
3xx | リダイレクト(転送)を指すHTTPステータスコード。Googlebotは、robots.txtファイルが存在しないと認識する |
4xx | クライアントエラーの発生を指すHTTPステータスコード。Googlebotは、robots.txtファイルが存在しないと認識する |
5xx | サーバーエラーの発生を指すHTTPステータスコード。Googlebotは、別の応答をえるまでリクエストを繰り返す |
ガイド項目「キャッシュ」の解説
本ガイド項目では、robots.txtファイルのキャッシュに関するルールが説明されています。それによると、Google検索エンジンでは、robots.txtの内容を次のような条件で保存するといいます。
- 最大で24時間、キャッシュを保存する
- キャッシュの保存期間は、延長や短縮するケースがある
- キャッシュ内容は、別のGoogleクローラーと共有する
ガイド項目「ファイル形式」の解説
本ガイド項目では、robots.txtファイルを作成するうえでのルールが記載されています。それによると、robots.txtファイルは、次のような条件を備える必要があるとのことです。
- ファイル形式=書式なしのテキストファイル
- 文字エンコード=UTF-8(その他の文字エンコードは無視される)
- ファイルサイズ=500KiB以下(上限を超えた場合は無視される)
ガイド項目「構文」の解説
本ガイド項目では、robots.txtの記述方法がまとめられています。robots.txtでは、下記の構文が用いられます。
基本構文 | 解説 |
---|---|
user-agent: | 「:」以降に指定するクローラー名を記述する |
allow: | 「:」以降にクロールを許可するURLパス(通常はドメイン以下)を記述する |
disallow: | 「:」以降にクロールを許可しないURLパス(通常はドメイン以下)を記述する |
sitemap: | 「:」以降にサイトマップのURLを記述する |
なお、東京SEOメーカー(本サイト)では、robots.txtで下記の指示を出しています。
User-agent: * Allow: /wordpress/wp-admin/admin-ajax.php Disallow: /wordpress/wp-admin/ Disallow: /wordpress/wp-content/uploads/wpo-plugins-tables-list.json Sitemap: https://www.switchitmaker2.com/sitemap.xml Sitemap: https://www.switchitmaker2.com/sitemap.xml
このうち、ユーザーエージェントに指定した「*」(アスタリスク)は、AdsBot(広告品質をチェックするGoogleクローラー)以外のすべてのクローラーを指します。結論としては、東京SEOメーカーの事例では、Wordpressのデフォルト設定(CMSのページをブロックしている)となっていて、とくにGoogleクローラーに対する指示をしていないということです。
ガイド項目「行とルールのグループ化」の解説
本ガイド項目では、指示をグループ化する方法について記載されています。複数のユーザーエージェントに対して、指示を出すケースを4つの事例パターンで紹介しています。
ガイド項目「ユーザーエージェントの優先順位」の解説
本ガイド項目では、1つのクローラーにつき、有効となるグループは1つだけである旨が説明されています。つまり、本ガイド項目は、「行とルールのグループ化」を補完するような内容となっています。
それによると、robots.txtのグループが複数ある場合、クローラーは、最適なグループを選択して、ほかのグループ内の記述をすべて無視するとのことです。優先されるグループは、クローラーによって異なり、それぞれ別のグループの指示に従います。
ガイド項目「パスの値に基づくURLの一致判定」の解説
本ガイド項目では、URLパスの書き方が説明されています。それによると、Googleを含む主要なクローラーは、ワイルドカード文字と呼ばれる記号をURLパスとして認識できるとのことです。下記は、そのワイルドカード文字です。
ワイルドカード文字 | 読み方と解説 |
---|---|
* | 読み方:アスタリスク
解 説:すべての文字列の代用である旨を示す |
$ | 読み方:ダラー
解 説:終点であることを示す |
ワイルドカード文字の使用事例をご紹介します。
URLパス | 解説 |
---|---|
/ | ホスト(ドメイン)以下のすべてのファイルを指す。ワイルドカード文字を使用していない基本状態 |
/*.html | ホスト以下で「.html」を含むすべてのファイルを指す。ワイルドカード文字「*」を使用した事例 |
/test.html$ | ホスト以下で「test.html」で終わるすべてのファイルを指す。ワイルドカード文字「$」を使用した事例 |
/*.html$ | ホスト以下で「.html」で終わるすべてのファイルを指す。ワイルドカード文字「*」と「$」を使用した事例 |
ガイド項目「ルールの優先順位」の解説
本ガイド項目では、1つのグループ内でURLパスの指定が競合する(矛盾する)場合、クローラーはどのように処理するのかがまとめられています。それによると、クローラーは、次のルールの基、指示に従うとのことです。
- 限定的なルール(指定ファイルが少ない指示を優先する)
- 制限が少ないルール(クロール許可する指示を優先する)
ガイド「Googleによるrobots.txtの指定の解釈」の活用方法
本ガイドは、Google検索セントラル内に設置された、robots.txtトピックの1ページという位置付けです。トピックを補完するような内容となっていますので、別ガイドとあわせて読むことで実務に活用できます。
- robots.txtでクローラーに指示出す必要があるか検討する
- rotots.txtファイルを更新して、クローラーに指示を出す
1.robots.txtでクローラーに指示出す必要があるか検討する
まずは、別ガイド「robots.txtの概要」を読んで、robots.txtファイルでなにができるのかを把握してください。そのうえで、自社サイトにrobots.txtでクローラーに指示を出す必要があるかを社内会議などで検討してください。
2.rotots.txtファイルを更新して、クローラーに指示を出す
次に、別ガイド「robots.txtの書き方、設定と送信」や「robots.txtファイルを更新する」を読んで、robots.txtの基本的な記述方法やファイルの更新方法を把握してください。
その後、本ガイド「Googleによるrobots.txtの指定の解釈」の情報を交えて、自社サイトでクローラーに出したい指示を記述します。
robots.txtとRobots Exclusion Protocol(REP)のよくある質問
robots.txtとRobots Exclusion Protocol(REP)に関する、よくある質問をまとめています。
Q:robots.txtとはなんですか?
Answer)robots.txtとは、自社サイトに対するクローラーの行動をコントロールするためのテキストファイルのことです。robots.txtは、自社サイトが設置されるサーバー内に置かれます。このとき、自社サイトの最上階層のフォルダ内にrobots.txtファイルをを配置してください。東京SEOメーカー(本サイト)では、robots.txtの詳しい概要を解説していますので、参考にしてください。
関連記事:robots.txtとは?設定する目的や具体的な書き方を解説
Q:Robots Exclusion Protocol(REP)とはなんですか?
Answer)REPとは、robots.txtファイルに指示する際に記述するコードの規約を指します。インターネット技術の標準仕様を管理する、RFC(Request for Comments)のサイトで詳しく説明されています。
参考(外部):RFC 9309: Robots Exclusion Protocol
まとめ