ウェブアーカイブ(Web Archive)
インターネット上でフリー音源等を探していると、既にサイトが軽鎖されていたり、改装してコンテンツが消えていたりという事に遭遇して、「これ欲しかったなぁ」と思った物が手に入らなかったりするのは良くある事です。
そんなネットの藻屑と化したデータを拾い集めることが出来る可能性を秘めているのがウェブアーカイブと呼ばれるものです。
有名どころではarchive orgやArchive.isでしょうか?、国立の図書館が行っている国立国会図書館インターネット資料収集保存事業、UK Web Archive、さらにはユーザーが自発的に保存を行なえるウェブ魚拓やFreezePageなんて物も存在します。
ユーザー作業や機械的なクロールによって、Web上の資源を収集する仕組みです。収集された履歴さえも見ることが可能で、サイト制作者から見るとある意味驚異と思えるところもあります。
サイトとしてアーカイブを取られたくない場合は公開Webディレクトリのrobotos.txtへ以下の記述をする必要があります。(設置していない人は設置する所から始めて下さい。また、自分のサイトのチューニングはGoogleのWebMaster Toolsがお勧めです。)
User-agent: ia_archiver Disallow: /この記述では、ルートディレクトリ以降へのia_archiverというUser-agentからのアクセスを禁止する事でWebの保存を避けることが可能になり、行儀の良いアーカイブ機構は履歴も削除してくれます。
では、実際にyahoo.co.jpを例に保存されたWebを取得してみます。
BROESE HISTORYで保存されたURLの履歴を見てみると、毎日のようにyahoo.co.jpのトップページが保存されている事が分かります。
古くは1996年の11月20日、
そして日付をクリックすると懐かしきヤフーのトップページが拝めます。はい、確かにこんな感じでした覚えてます。ネットスケープとIEがシェアを競ってた時代です。
これはトップサイトを取得した例ですが、URLにWeb上のファイル名を直接指定する事で特定ファイルの捜索も行えるので、うまく行けばネットの藻屑と化してしまったファイルを拾い上げる事が出来るかも知れません。
ディスカッション
コメント一覧
まだ、コメントがありません