ウェブアーカイブ(Web Archive)

2015年4月19日

インターネット上でフリー音源等を探していると、既にサイトが軽鎖されていたり、改装してコンテンツが消えていたりという事に遭遇して、「これ欲しかったなぁ」と思った物が手に入らなかったりするのは良くある事です。

そんなネットの藻屑と化したデータを拾い集めることが出来る可能性を秘めているのがウェブアーカイブと呼ばれるものです。

webarchive

有名どころではarchive orgArchive.isでしょうか?、国立の図書館が行っている国立国会図書館インターネット資料収集保存事業UK Web Archive、さらにはユーザーが自発的に保存を行なえるウェブ魚拓FreezePageなんて物も存在します。

ユーザー作業や機械的なクロールによって、Web上の資源を収集する仕組みです。収集された履歴さえも見ることが可能で、サイト制作者から見るとある意味驚異と思えるところもあります。

サイトとしてアーカイブを取られたくない場合は公開Webディレクトリのrobotos.txtへ以下の記述をする必要があります。(設置していない人は設置する所から始めて下さい。また、自分のサイトのチューニングはGoogleのWebMaster Toolsがお勧めです。)

User-agent: ia_archiver
Disallow: /

この記述では、ルートディレクトリ以降へのia_archiverというUser-agentからのアクセスを禁止する事でWebの保存を避けることが可能になり、行儀の良いアーカイブ機構は履歴も削除してくれます。

 

では、実際にyahoo.co.jpを例に保存されたWebを取得してみます。

archiveorg-searchweb

BROESE HISTORYで保存されたURLの履歴を見てみると、毎日のようにyahoo.co.jpのトップページが保存されている事が分かります。

yahoo_co_jp-history

古くは1996年の11月20日、

yahoo_co_jp-history1996

そして日付をクリックすると懐かしきヤフーのトップページが拝めます。はい、確かにこんな感じでした覚えてます。ネットスケープとIEがシェアを競ってた時代です。

yahoo_co_jp1996

これはトップサイトを取得した例ですが、URLにWeb上のファイル名を直接指定する事で特定ファイルの捜索も行えるので、うまく行けばネットの藻屑と化してしまったファイルを拾い上げる事が出来るかも知れません。

 

BLOGweb archive

Posted by redchat