クローラーの管理【Google検索セントラルの解説】
Google社は、WEBサイト運用の初心者向けに、Google検索セントラル上でクローラー管理に関するトピックを公開しています。
トピック内には、Google検索エンジンのクローラー管理をテーマとしたガイドが10ページ用意されています。これらのガイドでは、クローラーの基礎知識のほか、クロールをコントロールして、自社サイトのページを適切にインデックスする方法が説明されています。
なお、本トピックのガイドは、下記の目次ページ中の表のなかで紹介されています。
参考(外部):クロールとインデックス登録に関するトピックの概要
クロールはSEO対策の第一歩
クロール(Crawl / クローリング)とは、検索エンジン側がWEB上のサイトやページを発見するための作業のことです。WEBサイトの運営側としては、SEO対策するうえでは必須となる知識です。
関連記事:クローラーとは?仕組みや検索結果にSEO上位表示させる方法を解説
クロールは、クローラー(Crawler)と呼ばれる検索エンジンのロボットによって実行されます。クロール、インデックス、検索ランキングの決定を経て、はじめて自社サイトが検索エンジンの検索結果に表示されることになります。
関連記事:Google検索エンジンの仕組みとは?上位表示されるためのポイントを解説
トピック「クローラーの管理」の概要と読者
Google検索セントラル内に、クローラーの管理を題材としたトピックが設置されています。そして、本トピックには、クローラー管理に関連する10ページのガイドが用意されています。
それぞれのガイドでは、用語の基本知識からクロールを制御する方法といった、実践的な技術までをカバーしています。とくに、Google検索エンジンのクローラー情報に特化していますので、SEO対策するうえで役立ちます。
関連記事:Googleのクロールを制御する方法とは?代表的なクローラーも解説
各ガイドを読むべき人
本トピックの各ガイドを読むことで、クロール制御の技術が身につきます。クロール制御すると、検索エンジンに対して、自社サイトのページを効果的にインデックスできます。このように
、実務作業で役立つ情報が掲載されていることから、次のような担当者が読むべきガイドとなっています。
- WEBディレクター
- WEBエンジニア
本トピックには、テクニカルな実装方法も載っていますので、SEO対策の担当者にあたるWEBディレクター、サイト機能の実装を担当するWEBエンジニアが本ガイドを読んだうえで、相談しながら作業を進めてください。
トピック「クローラーの管理」の構成と読み方
本トピックは、大枠としては6項目で合計10ページのガイドで構成されています。そのうち、1項目は、Googleクローラーに関する5ページのガイドに分割されています。本トピックの具体的な構成は、下記のとおりです。
- ガイド「URLの再クロールをGoogleにリクエストする」
- ガイド「Googlebotのクロール頻度を下げる」
- ガイド「HTTPステータスコード、ネットワークエラーおよびDNSエラーがGoogle検索に及ぼす影響」
- ガイド「クローラーがGooglebotなどのGoogleクローラーであることを確認する」
- ガイド「大規模なサイト所有者向けのクロールバジェット管理ガイド」
- 項目「Googleクローラー」(合計5ガイド)
ガイド「URLの再クロールをGoogleにリクエストする」の解説
ガイド「URLの再クロールをGoogleにリクエストする」では、自社サイトのページをクロールしてもらうために、Google検索エンジンに対してリクエスト申請する方法を説明しています。
それによると、リクエスト申請したいページURLが少ない場合には、Google Search Console(サーチコンソール)のURL検査ツールを使うことを推奨しています。
ツールURL(外部):URL検査ツール
関連記事:Googleクロールをリクエストする手法とは?クロール申請のやり方を解説
一方、リクエストするページURLが多いケースに対しては、XMLサイトマップを送信する手法を紹介しています。
関連記事:サイトマップとは?作成方法やSEO効果について解説
ガイド「Googlebotのクロール頻度を下げる」の解説
ガイド「Googlebotのクロール頻度を下げる」では、自社サイトに対するクロール頻度を下げる方法を説明しています。
それによると、Google検索エンジンのGooglebotがサイトをクロールした際に、返信されるHTTPステータスコードによって、その後のクロール頻度が変化すると述べられています。具体的には、次のようなステータスコードを返すと、クロール頻度が低下するとのことです。
HTTPステータスコード | 解説 |
---|---|
429 | クローラーにサーバーエラーが発生していることを伝える。 |
5XX(500番台) | クロール頻度を下げるように促す。500、502、503といったステータスコードの種類がある。 |
ただし、クロール頻度の低下は、サイト全体に影響を与えます。具体的には、自社サイトにおけるインデックス数の低下、ページ更新の反映が遅れるといった不都合が発生しますので注意してください。
ガイド「HTTPステータスコード、ネットワークエラーおよびDNSエラーがGoogle検索に及ぼす影響」の解説
ガイド「HTTPステータスコード、ネットワークエラーおよびDNSエラーがGoogle検索に及ぼす影響」では、HTTPステータスコードの種類や影響、ネットワークエラーについて説明しています。
まず、本ガイドでは、HTTPステータスコードの種類を紹介しています。ざっくりとまとめると、次のような種類にわかれます。
HTTPステータスコード | 解説 |
---|---|
2xx(200番台) | クロールに成功したことを伝える。 |
3xx(300番台) | リダイレクト設定されていることを伝える。 |
4xx(400番台) | 何かしらの原因でエラーが発生していることを伝える。 |
5xx(500番台) | クロール頻度を下げるように促す。 |
その一方で、ネットワークエラーやDNSエラーに関して、Googlebotは、5xxのサーバーエラーと同等に扱う旨が述べられています。そして、両エラーの原因を特定する方法が紹介されています。
関連記事:クロールエラーへの対処方法とは?原因や注意点を解説
ガイド「クローラーがGooglebotなどのGoogleクローラーであることを確認する」の解説
ガイド「クローラーがGooglebotなどのGoogleクローラーであることを確認する」では、自社サイトをGooglebotがクロールしたか否かを確認する方法を紹介しています。そもそも、Googlebotを騙ったスパム行為もありますので、自社サイトをクロールしたものが本物のGooglebotか、偽物なのかを確認する必要性があるとガイド中で述べています。
具体的には、Google検索エンジンのクローラーの種類、クローラーの確認方法について説明しています。クローラーの確認方法においては、自社サイトにアクセスしてきたIPアドレスをもとに、調査できるとのことです。
- コマンドラインツールを使用する
- 自動ソリューションを使用する
前者のコマンドラインツールとは、プログラムを打ち込むことでコンピューターに命令を出せるソフトウェアのことです。代表的なツールとしては、Windows OSのコマンドプロンプト、Mac OSのターミナルが挙げられます。本ガイドには、このコマンドラインツールを利用して、クローラーの正体を突き止める手順が載っています。
ガイド「大規模なサイト所有者向けのクロールバジェット管理ガイド」の解説
ガイド「大規模なサイト所有者向けのクロールバジェット管理ガイド」では、規模が大きく、高い頻度で更新するWEBサイトにおけるクロール対策を紹介しています。こうした内容であることから、対象読者としては、WEBサイト内のページ数が多く、毎日のように更新するケースを想定しているとのことです。
そして、本項目では、次のような情報がまとめられています。
- クロールの上限値や性能
- クロールを効率化する方法
- クロール状況の監視と問題解決
関連記事:クロールバジェットの重要性から最適化する4つの対策方法を解説!
項目「Googleクローラー」(合計5ガイド)
項目「Googleクローラー」では、Googleクローラーの概要やフェッチャーと呼ばれる機能について説明するガイドが設置されています。このほか、Google社のクローラーの仕様を説明する4ページのガイドが用意されています。
それぞれガイドは、Google社のクローラーの仕組みについて、詳しく把握したいときに読まれるものです。そのため、主に、WEBエンジニアが実務作業するうえで役立ちます。
トピック「クローラーの管理」の活用方法
本トピックを読むと、次のような作業で役立ちます。
- 自社サイトが正しくクロールされているか確認するケース
- 自社サイトのクロール頻度を調整するケース
- クロールを最適化するケース
自社サイトが正しくクロールされているか確認する
自社サイトが正しくクロールされているかを確認することで、自社サイトのページを効率的にインデックスできます。クロール状況を確認する方法としては、次のような手法があります。
- クロールされたかを確認する
- クロールが成功したか確認する
- Googlebotにクロールされているか確認する
クロールされたかを確認する
クロールの有無は、Googleサーチコンソールで確認できます。その具体的な手順は、次のとおりです。
- Googleサーチコンソールにアクセスする
- メニュー「インデックス作成」→「ページ」をクリックする
- クロール済みのページを確認する
- メニュー「URL検査」でクロールされていないページURLを入力して調査する
「2.」で表示されるページにて、Google検索エンジンに認識されているページ数を確認できます。グラフの見方ですが、「登録済み」と表示されているページはインデックスされている状態、「未登録」と表示されているページはインデックスされていないものの、認知されている状態を表しています。
さらに、個別のページURLの状況を詳しく調査したいときは、「4.」の作業を進めます。
クロールが成功したか確認する
クロールの成否も、Googleサーチコンソールで確認できます。具体的には、メニュー「インデックス作成」→「ページ」と同様の画面で確認できます。ページ画面を下にスクロールすると、それぞれ、インデックスできなかった理由が掲載されています。
つまり、クロール成否の結果は、HTTPステータスコードとして確認できるということです。HTTPステータスコードの詳細は、ガイド「HTTPステータスコード、ネットワークエラーおよびDNSエラーがGoogle検索に及ぼす影響」でチェックできます。
Googlebotにクロールされているか確認する
Google検索エンジンにクロールされたか否かは、アクセスツール上でログで、Googleにクロールされた形跡があるものの、本当にGoogleにクロールされたかが疑わしいときに必要な作業です。この作業方法は、ガイド「クローラーがGooglebotなどのGoogleクローラーであることを確認する」にて紹介されています。
自社サイトのクロール頻度を調整するケース
自社サイトのクロール頻度を調整したいときに、本トピックが役立ちます。まずは、クロール頻度を高めたいケース、そうでないケースにわけて解説していきます。
クロール頻度を上げたいケース
一般的に、SEO対策しているWEBサイトの運用者は、クロール頻度を高めて、積極的に自社ページをインデックスしたいと考えます。ただし、クロールしてくれるか否かは、原則的に保証されているものではありません。そのため、検索エンジン側の判断や都合でクロール頻度は変化します。そこで、次のように、自社サイトの存在を検索エンジン側に伝えることで、クロールしにきてくれる可能性が高まります。
- XMLサイトマップを送信する
- URL検索ツールを利用する
前者は、XMLサイトマップと呼ばれる、サイト全体の情報を記載したファイルを検索エンジンに共有することで、自社サイトの構造を知らせるものです。そして、後者は、GoogleサーチコンソールのURL検索ツールを利用して、個別のページURLごとに、クロールのリクエストを申請するというものです。
両者の方法ともに、ガイド「URLの再クロールをGoogleにリクエストする」で紹介されていますのでチェックしてください。
クロール頻度を下げたいケース
ログインが求められる会員ページなどを運用していると、そもそも、検索エンジンにページ情報を共有しません。こうしたケースでは、クロールされる必要性がありませんので、クロール頻度を低くします。具体的には、クロールが不要であることを伝える、HTTPステータスコードを利用します。詳しくは、ガイド「Googlebotのクロール頻度を下げる」を確認してください。
クロールを最適化するケース
クロールを最適化したい場合、本トピックが役立ちます。
ただし、クロールの最適化が求められるケースは、高い頻度でページ更新する大手サイト、速報性が高いニュースを報じるメディアといった一部のサイトに限られます。こうしたメディアは、ガイド「大規模なサイト所有者向けのクロールバジェット管理ガイド」を参考のうえで、サイトを改修してください。
このほか、Google社におけるクローラーの詳しい仕様を確認したいときは、ガイド「Googleクローラーとフェッチャーの概要(ユーザー エージェント)」をはじめとしたページをチェックしてください。
クローラー管理のよくある質問
クローラー管理に関する、よくある質問をまとめています。
Q:クローラーとはなんですか?
Answer)クローラーとは、検索エンジンがインターネット上のWEBサイトを発見するためのロボットのことです。クローラーは、常に世界中のWEB上を巡回していて、サイトやページの情報を収集しています。
関連記事:クローラーとは?仕組みや検索結果にSEO上位表示させる方法を解説
Q:クローラーの管理は、なぜ必要ですか?
Answer)WEBサイトの運用者がクローラーを管理することで、効果的に自社ページを検索エンジンにインデックスできます。具体的な管理方法としては、クローラーに対する指示を出す、能動的にサイト情報を提供する、といった手法が挙げられます。
Q:ページがクロールされたか確認する方法は?
Answer)Googlebotにクロールされたということは、Google検索エンジンにサイトやページの存在を認知されたということと同義です。そのため、Googleサーチコンソールで自社サイトのインデックス状況を確認する方法があります。
ツールURL(外部):Googleサーチコンソール
Q:Googlebotにクロールをリクエストする方法は?
Answer)Googleサーチコンソールには、URL検索ツールと呼ばれる機能があります。URL検索ツールにクロールして欲しいページURLを入力すると、リクエストを申請できます。ただし、リクエストしたからといって、必ずクロールされるとは限りません。また、ページを更新していないにもかかわらず、何度も同じページのリクエストを出しても意味がありませんので注意してください。
Q:クロールされないときの対策方法はありますか?
Answer)サイトを立ち上げたばかりのときは、自社サイトの存在を検索エンジンに伝える必要があります。そこで、XMLサイトマップを作成して、Google検索エンジンにサイト構造を共有してください。
関連記事:サイトマップとは?作成方法やSEO効果について解説
まとめ