Wayback Machine(ウェイバックマシン)とは?
Wayback machine(ウェイバックマシン)とは、非営利団体のInternet Achive(インターネットアーカイブ)によって運営されているWEBツールのことです。
Wayback Machine(ウェイバックマシン)とは
Wayback Machine(ウェイバックマシン) とは古いWEBページを閲覧したり、保存したりできる無料ツールです。
運営元であるInternet Archiveは非営利団体で、インターネット上にある莫大なデータを集め、独自の手法でデータベースに保存しています。WEBサイトを保存しているデータベースと思われていることが多いですが、Twitterや音楽、映画、書籍などのデータも保管されています。
サイトの検索入力窓の上には「Explore more than 685 billion web pages saved over time」とあり、2022年5月時点で6850億以上のページが保管されていることがわかります。
Wayback Machineの使い方
Wayback Machineの使い方は大きく4つあります。
- URLで検索する
- キーワードで検索する
- 画像、音楽、動画などを検索する
極めて膨大な数のデータが保管されておりますので、探したいものを見つける手法を使うべきですが、特に利用されるのがURLで過去のサイトを検索し、過去の履歴を閲覧する手法です。
URLから検索する
上図は「https://www.yahoo.co.jp/」と入力し検索した結果です。
さすがに大規模サイトなだけあって、1996年から2022年の間に244,190回も保管されています。年表を見てもカレンダーを見ても相当数の保管回数があることがわかります。
上の事例ではトップページのURLを入力しましたが、特定のページの過去分を見たい場合には確認したい記事のURLを入力しても構いません。
年表をクリックすると該当年のカレンダーを閲覧できますし、カレンダーからは何月何日の何時に保管されたデータをみたいのかを選択できます。(下図参照)
例えば、下図の左は2000年のYahoo!JAPANのトップ、右は2010年のYahoo!JAPANのトップです。基本機能は変わっていないものの、デザインは現在のものとずいぶんと変化していることがわかります。
なお、Yahoo!JAPANは大規模なサイトであるため、保存回数が非常に多いものの、サイト規模が小さいサイトの場合には下図のように月に1回~2回程度しか保存されないこともよくあります。
世界的に大量のデータを保管しているとはいえ、必ずしも過去データが閲覧できるというわけではございません。
キーワードから検索する
Wayback Machineではキーワード検索をすることも可能です。検索窓にキーワードを入力するだけですので簡単に調べることができますが、検索結果は上図(サッカーで検索した例)のように普段見ている検索結果とは違い違和感があるかもしれません。
WayBack MachineはURLで検索することが多いため、補助的な機能として使うとよいです。
画像・本・動画コンテンツ検索
ページの最上部、ロゴの右側にはさまざまなアイコンが並んでいます。通常はURL検索、次いでキーワード検索をすることで過去データを閲覧できますが、書籍、画像、音楽など一般的なサイト以外のデータを確認することも可能です。
Wayback MachineにWEBサイトを保管する方法
Wayback Machineは非常に優秀なサイトですので、世界中のWEBサイトを自動でアーカイブします。しかし、アーカイブするリソースは限られているため新規サイトでは保管されなかったり、保管されるとしても頻度が非常に少ないということは十分にありえます。
そこで、Wayback MachineのTOPページ右下(上図赤枠)にあるSave Page Nowに保存したいページのURLを入力して保存することが可能です。
入力窓の下には「Capture a web page as it appears now for use as a trusted citation in the future.(将来信頼できる引用として使用するために、現在表示されているWEBページをキャプチャしてください。)」とあるように、ページを保存することは将来、誰かのためになるかもしれません。
Wayback Machineに保存されたページの削除方法
Wayback Machineに保存されているページの削除について、ヘルプページには以下のように記載があります。
How can I exclude or remove my site’s pages from the Wayback Machine?
You can send an email request for us to review to info@archive.org with the URL (web address) in the text of your message.
つまり、具体的な削除依頼フォームがあるわけではなく、info@archibe.org宛てに削除してほしい旨の本文と共に削除してほしいURLを記載する必要があります。
ただし、運営元のInternet Archiveはアメリカの団体ですので、メールのやり取りはすべて英文でおこなうため、やり取りには注意が必要です。
Wayback Machineに保管されないためには
Wayback Machineは非常に便利なツールであり、自動保存してくれるため通常は閲覧をするだけが利用用途になるはずです。
しかし、削除するとなると削除してほしいURLをメールで送り、英語でやり取りする必要があり手間がかかります。そのため、もしアーカイブしてほしくないと思った場合には事前にアーカイブされないような策を講じる必要があります。
ただし、アーカイブされないようにするためにはrobots.txtを書き換える必要があり、設定を間違えるとGoogleのような検索エンジンのアクセスも拒否することになるため、SEO的に大きなマイナスの影響を受ける可能性があります。
通常はWayback Machineにアーカイブされても悪影響はありませんので、どうしても必要な場合に限り、robots.txtの知見がある人に設定を依頼するようにしてください。
h3:robots.txtとは
robots.txt(ロボッツテキスト)とは、検索エンジンのようなクローラーに対して、サイトのどの部分にアクセスを許可するか、拒否するのかを設定できるファイルです。
検索エンジンの検索結果に表示されないようにするためにrobots.txtの利用を考えている人もいますが、通常は検索結果に表示されないためにはnoindex設定を利用したり、パスワード設定をすべきです。
アクセスを制限する方法
robots.txtを書き換えることにより、Wayback Machineのクローラーをサイトにアクセスさせないようにすればアーカイブされることはなくなります。
構文そのものは非常に簡単で、次の2行を追記するだけでアーカイブされません。
User-agent: ia_archiver
Disallow: /
ただし、上記の設定ではサイトのすべてのアーカイブを拒否する設定になっています。特定の一部のディレクトリだけを拒否する場合には次のように記載してください。
User-agent: ia_archiver
Disallow: /sample-directory/
もし特定のページだけのアーカイブを防ぎたい場合には次のようにさらに指定してください。
User-agent: ia_archiver
Disallow: /sample-directory/sample-file/
繰り返しますが、robots.txtは設定を間違えるとSEOにマイナスの影響を及ぼしますので、必ず設定方法のわかる方が対応するようにしてください。
Wayback Machineの活用方法
Wayback Machineは過去のWEBデータを見るためのサイトですが、さまざまな活用方法があります。
代表的なものがSEO対策(競合分析)と中古ドメインのチェックです。拡張機能もあるため、効果的に利用して自社サイトの改善に活かしてください。
拡張機能
Wayback Machineには以下のようなAPIやアドオンが用意されています。
- Wayback Machine Availability API
- Chrome Extension
- Firefox Add-on
- Safari Extension
- MS Edge Add-on
- iOS app
- Android app
頻繁に利用する場合にはアドオンは特に利用される機能です。
SEO対策(競合分析)
Wayback Machineは過去のWEBサイトを閲覧することができます。これは、競合サイトや自社サイトの変化の推移をみて、検索順位と照らし合わせることで過去にどのようなサイトがどこをどのように変えて順位が上昇または下降したのかを見ることができるということです。
特に競合サイトが大きく変化をした場合には具体的にどこを変更したのかを見ることで変更の意図を考え、自社の改善に活かすことができないかを検討できるため非常に便利です。
中古ドメインの過去データを確認
中古ドメインを購入する場合、そのドメインが過去にどのような変遷を辿ってきたのかは重要です。過去のサイトテーマによっては想定外の外部リンクがついていたり、スパムサイトとして利用されていたという理由でGoogleからペナルティを受けてしまったりする可能性があるためです。
ペナルティを受けているかどうかはドメインを購入し、Googleサーチコンソールに登録するまでわかりませんが、事前にどのようなサイト運営をされてきたのかを確認することはWayBack Machineを利用することでドメイン購入前にできます。
削除されたページの閲覧
WayBack Machineではその特性上、現存するサイトやページの過去の状況だけではなく、既に削除されてしまったサイトや記事も閲覧することができます。
ただし、現在残っていないサイトということは公開期間が短い可能性があり、必ずしもアーカイブされているとは限りません。あくまで参考程度に閲覧できるかもしれないとお考え下さい。
WayBack Machineの代替ツール
WEBアーカイブ確認ツールとしてはWayBack Machineがもっとも有名ですが、WayBack Machineでは確認できない場合もあります。そのような場合には次のような代替ツールを利用してください。
ウェブ魚拓
ウェブ魚拓 はWayBack MachineのようにWEBサイトをアーカイブするサイトです。最大の違いはWayBack Machineはクローラーが自動的にWEBサイトを登録していくのに対し、ウェブ魚拓は利用者がURLを入力して保存する点です。
しかし、画像データやFLASHなどもほぼ完全に保管できるため、再現性が高い点は優れています。
Stillio
Stillio は自動スクリーンショットサービスです。 一定間隔で頻繁にWebサイトのスクリーンショットをキャプチャすることができます。
archive.today
archive.today もWEBアーカイブツールです。ドメインの画像も保存する点が特徴的ですが、WayBack Machineの補助として利用できる程度です。
PageFreezer
PageFreezer もWayback Machineの代替ツールとして有名です。こちらも自動化されていますが、有料な点がWayBack Machineと大きく異なります。
タイムトラベル
TimeTravel はアーカイブしているサイトを検索することができる点で非常にユニークです。同じドメインであってもアーカイブしているサイトによって見え方が異なるため、違う切り口で情報が欲しい際に役立つかもしれません。
まとめ
SEOとWEBマーケティングの東京SEOメーカーTOPへ戻る