[SEO上級者向け]Googleが推奨するURL構造と大量作成されたURLへの対策も解説
GoogleはURL構造をシンプルに記述することを推奨しており、ユーザーがスラッグやURLを見ただけで、ページの記載内容がイメージできるURL構造が好ましいとされています。そのため、長いパラメータやフィルタリングを使ったURL構造は推奨されておりません。
URL構造とSEO効果
URL(Uniform Resource Locator)とは、WEB上にあるファイルがどこにあるのかを表したものです。WEB上の住所ととらえることができます。コンピュータはIPアドレスをもとにWEB上のどこにアクセスすればよいかを判断しますが、人間には数値だけで判断することはむずかしいため、URLを使って場所を明示します。
このURLは原則的にはSEOとは関係ありませんが、使い方次第ではSEO効果を出したり、ユーザビリティを向上させることにつながります。あまりに長すぎるURLやユーザーにわかりにくいURLはユーザー体験を損なうことにつながるため、端的にわかりやすいものにすべきというのがGoogleが推奨するURL構造です。
Googleが推奨するURL構造
GoogleではURLをわかりやすく端的に付けるように推奨しています。基本的にはアルファベットと数字、記号だけで可読性の高い、意味のある単語を使ってURLを心掛けるべきですが、必要に応じてUTF-8でエンコードしたURLである必要があります。
推奨するURLにはさまざまな形がありますが、共通する事項としてはシンプルなURL構造を作成することです。論理的かつ人間が理解できる方法でURLを構成できるよう、コンテンツを分類するようにしてください。また、URLには大文字と小文字を使うことができますが、特別な事情がない限りはどちらか(小文字を強く推奨)に統一することで重複を防ぐことができます。
効果的なURL構造
基本的には次のように端的にわかりやすい語句をURLにすべきです。1つの単語だけでURLを表現できない場合には複数の単語を使うことがありますが、この場合にはアンダースコア(_)は避け、ハイフン(-)を使うようにしてください。
上記は英単語を使ったURLの例ですが、時にはローカライズした語句をURLに使ったほうがユーザーにわかりやすいことがあります。
また、必要に応じてUTF-8エンコードを使うようにしてください。特に日本語URLや中国語URLを使う場合にはUTF-8エンコードにする必要があります。UTF-8エンコードを使うことで通常のURL(アルファベット、数字、記号)では表現できないURLを作ることができますが、次の例のようにパーセントコードを使うことになりますので、ユーザーからすれば必ずしもわかりやすいとは限りません。
ひらがなの「あ」をパーセントコードに変換すると「%E3%81%82」と表現されるようにパーセントコード変換することでURLが非常に長くなってしまうというデメリットもあるため、URL構造としては誤っていないものの、特別な事情がなければ避けるべき構造といえます。
アラビア文字をUTF-8エンコードした例
https://www.example.com/%D9%86%D8%B9%D9%86%D8%A7%D8%B9/
%D8%A8%D9%82%D8%A7%D9%84%D8%A9
中国語文字をUTF-8エンコードした例
https://example.com/%E6%9D%82%E8%B4%A7/%E8%96%84%E8%8D%B7
ウムラウトをUTF-8エンコードした例
https://www.example.com/gem%C3%BCse
絵文字をUTF-8エンコードした例
https://example.com/%F0%9F%A6%99%E2%9C%A8
複数のエリアを対象とするサイトのURLではターゲティングが端的にわかるようなURL構造を検討してください。国別ドメインを使ったり、国別にサブディレクトリを使用することでユーザーに対して、どこのエリアのユーザーを対象にしているのかが明示できます。
https://example.jp
https://example.com/jp-ja/
避けるべきURL構造
避けるべきURL構造は効果的なURL構造以外の構造のことです。例えば、UTF-8エンコードを使わずに、次のようにASCII文字以外をURLに使うことは避けるべきです。
https://www.example.com/نعناع
https://www.example.com/杂货/薄荷
https://www.example.com/gemüse
https://www.example.com/🦙✨
※それぞれアラビア語、中国語、ウムラウト、絵文字をそのままURLに使った例
大型サイトでは単語ではなく数値だけでページを表すことがありますが、意味のない長い数値を使うことは、わかりやすさの観点では推奨されません。
また、複数の単語を使う際に、単語ごとに区切らなかったり、アンダースコア(_)を使ったりすることも避けるべきURL構造です。
https://sample.com/whatiswebmarketing/
https://sample.com/web-marketing/
大量のURLが発行されてしまう原因
複数のパラメータを含む場合や大規模サイトで1つのアイテムを複数の並び替えできる場合、相対リンクの破損などにより本来Googleが認識すべきページ数よりも多いURLが検知されることがあります。
canonical設定を正しくすることでインデックスの重複を防ぐことはできますが、大量のURLが発行されてしまうことでGoogle botの帯域幅を消費してしまったり、コンテンツがインデックスされないというような問題が生じることがあります。
このような大量のURLが発行されてしまう原因は次のとおりです。
- アイテムに対する複数条件でのフィルタリング
- 並び替えパラメータ
- 不必要なパラメータ
- 相対リンクの破損
アイテムに対する複数条件でのフィルタリング
特定のアイテムや検索結果を複数の方法で表示できるサイトでは、複数のフィルタの追加によりURLが急増することがあります。
「割り引き価格」のホテル:
https://www.example.com/hotel-search-results.jsp?Ne=292&N=461
「割り引き価格」で「ビーチに面した」ホテル:
https://www.example.com/hotel-search-results.jsp?Ne=292&N=461+4294967240
「割り引き価格」で「フィットネスセンターがある」、「ビーチに面した」ホテル:
https://www.example.com/hotel-search-results.jsp?Ne=292&N=461+4294967240+4294967270
上記の3つは条件は異なるものの、内容に大きな違いのないホテルリストを出してしまうことになります。Google botがすべてのページにアクセスするにはリストが少しあれば十分です。
対策:robots.txtによるアクセスブロック
robots.txtを使い、Google botが問題のあるURLへのアクセスをできなくすることで対策が可能です。正規表現をうまく活用することで大量のURLへも対応可能です。この手法は他の問題に対しても有効です。
並べ替えパラメータ
Amazonのような大規模なショッピングサイトでは同じアイテムを複数の方法で並べ替えできるようにしているサイトがありますが、これはURLが大量生成につながります。
不必要なパラメータ
https://www.example.com/search/noheaders?click=6EE2BF1AF6A3D705D5561B7C3564D9C2&clickPage
=OPD+Product+Page&cat=79
https://www.example.com/discuss/showthread.php?referrerid=249406&threadid=535913
https://www.example.com/products/products.asp?N=200063&Ne=500955&ref=foo%2Cbar&Cn=Accessories
上記の例はいずれもパラメータが表示されているものの、ページの特定という意味では不必要であり、1つのページに対して大量のURLを発行することになります。また、セッションIDをURLに使用することでも大量のURLを生み出すことにつながります。
対策:URLを短くし、Cookieを使う
不必要なパラメータは可能な限り削除し、URLをできるだけ短くすることで発生するURLの数を抑えることができます。また、URLにセッションIDを使うのではなく、Cookieを利用することで大量のURLを生み出すことを回避できます。
カレンダーの問題
動的に生成されるカレンダーで開始日や終了日の制限がない場合、未来や過去の日付のリンクを生成することがあり、事実上、無限のURLを生成することになります。
対策:nofollow設定
サイトに期間制限のないカレンダーがある場合、大量のURLが発行されてしまいますが、作成されるカレンダーページへのリンクにnofollow属性を追加することで対策可能です。
破損した相対リンク
https://www.example.com/index.shtml/discuss/category/school/061121
/html/interview/category/health/070223/html/category/business/070302
/html/category/community/070413/html/FAQ.htm
サイト内の内部リンクを張る際に相対リンクの表示が壊れていると、URLにループが生じることがあります。上の例ではカテゴリが複数回にわたって繰り返されていることがわかります。
ただし、相対リンクの設置によりURLが発行される場合には具体的な対策がないため、絶対リンクを利用するか、ページ公開後に相対リンクが壊れていないかどうかをチェックする必要があります。
SEOに効果的なURL構造のポイント
URL構造という点ではGoogleの推奨、非推奨とは無関係ですが、SEOを意識した場合には次の3つのポイントを考慮したうえでURLを設定する必要があります。
- URLのhttps化
- URLの正規化
- URLにキーワードを含める
URLのhttps化
URLをhttps化(常時SSL化)するかどうかはURL構造の正否としては問題にはなりませんが、サイトの信頼性や安全性を担保するうえでは必須です。SEO効果としては低いものの、ブラウザによってはhttpのサイトには注意喚起を促すような表示が出ることもあり、https化は事実上、対応しなければならない事項です。
URLの正規化
https://example.com/
http://example.com/
https://www.example.com/
https://example.com
https://example.com/index.html
https://example.com/index.php
上記のURLはトレイリングスラッシュ(URLの最後につくスラッシュのこと)の有無やwwwの有無、indexの有無などで微妙に異なりますが、すべて同じページを意味しています。WordPressのようなCMSを使っている場合には特定の1つに正規化されていますが、自動的に正規化されない場合にはどのURLを正規化するのかを考えたうえでリダイレクトまたはcanonical設定をしてください。
URLにキーワードを含める
URLにはページの内容を端的に表現するキーワードを含めるべきです。例えば、次の2つの例を見比べたときにどちらのURLのほうがページの内容を反映するのかは明らかです。
https://example.com/web-marketing/
https://example.com/50095/
URLにキーワードが含まれることで若干ながらSEO効果があり、ユーザーにとっても検索結果に表示されるURLから内容を推測できるためユーザビリティが高くなると判断されることがあります。
インデックス可能なファイル形式とURL
通常のWEBサイトではHTML形式で作られたファイル形式のみですが、Google botは非常に優秀ですのでテキストベースのファイルや特定のエンコードされたドキュメント形式であればほとんどインデックス可能です。
検索結果ではPDFファイルが有名ですが、これ以外にも次のようなファイル形式はすべてインデックスされるURL構造です。
- Adobe PostScript(.ps)
- カンマ区切り形式(.csv)
- Google Earth(.kml、.kmz)
- GPS eXchange Format(.gpx)
- Hancom Hanword(.hwp)
- HTML(.htm、.html、その他のファイル拡張子)
- Microsoft Excel(.xls、.xlsx)
- Microsoft PowerPoint(.ppt、.pptx)
- Microsoft Word(.doc、.docx)
- OpenOffice プレゼンテーション(.odp)
- OpenOffice スプレッドシート(.ods)
- OpenOffice テキスト(.odt)
- リッチテキスト形式(.rtf)
- Scalable Vector Graphics(.svg)
- TeX、LaTeX(.tex)
- Wireless Markup Language(.wml、.wap)
- XML(.xml)
- テキスト(.txt、.text)
- Basic ソースコード(.bas)
- C、C++ ソースコード(.c、.cc、.cpp、.cxx、.h、.hpp)
- C# ソースコード(.cs)
- Java ソースコード(.java)
- Perl ソースコード(.pl)
- Python ソースコード(.py)
また、画像形式では、BMP、GIF、JPEG、PNG、WebP、SVG、動画形式では3GP、3G2、ASF、AVI、DivX、M2V、M3U、M3U8、M4V、MKV、MOV、MP4、MPEG、OGV、QVT、RAM、RM、VOB、WebM、WMV、XAPの形式もインデックスされるURL構造です。
まとめ