そのリンク、生きてる?

World Wide Web(WWW)の文書に埋めこまれたハイパーリンクをクリックして、「404 Not Found」というエラーメッセージに遭遇した経験のない方はいないだろう(「404 Not Found」は参照先が見つからないことを示すエラーメッセージで、404はエラーの番号を表している。例えばここをアクセスしてみよう)。

WWWがこれほどまでに流行し、ネットにおけるコミュニケーションのインフラとして成長した理由はいくつか考えられるが、ハイパーリンクを単なる参照関係として表現するという単純なルールもその流行を支えた大きな要因の1つである。ハイパーリンクで結ぶ相手先との交渉を必要とせず、単に参照するだけといった手軽さによって、HTMLによるハイパーテキスト空間を簡単に構成することが可能となった。それゆえにWWWは重要なネット社会基盤と成り得たが、一方で、リンクの永続性や可用性はけして保証されることがなかった。その結果、せっかく見つけた糸口を辿っても実体にアクセスできず臍(ほぞ)を噛むという不幸な出来事が日常茶飯事となってしまったのだ。

ストック型ウェブサイトとフロー型ウェブサイト

学術論文のように他から参照されることが前提となっているような文書は、どの雑誌の何ページに掲載されたのか、著者と題名とともにそれらの情報をまとめた書誌情報を示すことで文書を特定するルールが確立されている(その文献を入手できるかどうかはまた別の問題だが)。また文書を永続的に参照できるような文書番号体系(デジタルオブジェクト識別子, Digital Object Identifier, DOI)も提唱されている。知識の集積が重要な分野、これをストック型文書の世界と呼ぼう。ストック型の世界では、これらの工夫によって文書の参照関係を維持する努力が加えられている。

一方、書かれてすぐに消え去る運命の文書も存在する。新聞記事がその代表例である。読み捨てられる週刊誌の記事もこの範囲に入れてよい。先に挙げたストック型に対して、これらをフロー型の文書と呼ぶことにする。フロー型の文書は鮮度が命。その価値は時間の経過とともに減少し、保存しておく意義は薄い。

フロー型文書で構成されたハイパーテキストの代表例が、いわゆる「ニュースサイト」だろう。ニュースサイトの記事は日々、更新される。記事の参照先を示すURLは毎日大量に生産され、そして消えてゆく。第三者のページに記載された記事の参照は、しばらくは維持されるだろう。しかし気がついたときには参照先の記事は消えている。かくしてリンクをたどると404のエラーメッセージが飛び出してしまう、ダングリング・ポインタが発生するのだ。

ここで気になるのは当コラム、過去の記事でもニュースを参照していた例があったはず。当コラムはストック型かフロー型か、どちらに分類すべきだろうか。またニュース以外でもウェブサイトの移転やサービスの停止などによって同様のエラーが生じる機会も多い。はたして実態はどうだろう? ということで、実際に調べてみた。

当コラム記事の参照先は?

対象とした記事は1998年の公開開始から本年3月8日に公開された記事までの596本である。各記事に含まれているリンクを抽出し、それらのリンク先にアクセスできるかどうか、実際にアクセスしてみることで確認した。以下に、四半期単位でまとめたレスポンスの状況をグラフ化した結果を示す。青は正常に表示されたもの、赤は「移転」、黄色が「404 Not Found」、緑はその他の反応を示す。

参照先の反応

この図をみると、正常な反応、つまりWWWにおけるハイパーリンクの参照関係は時間とともに崩れていくことが明らかにわかる。このデータに基づき、リンク先を正しく参照できる確率の減衰する期間を計算したところ、その半減期は6年弱と求められた。

6年の半減期を長いとみるか短いとみるか。本コラムのテーマが情報技術であることを鑑みると、6年は十分に長いといってよいだろう。ITの世界における時間の流れは、ドッグイヤー、さらにはもっと短いマウスイヤーともいわれた時期があった。そのような世界において、6年も前の情報は遺物となっている可能性は高い。このことを考慮すると、本コラムにおける参照先の選択方法も、それほど外しているわけでもなさそうだ。

参照関係のメンテナンス

さて、話題を戻そう。「404 Not Found」の不幸は、フロー型の文書を参照したときに起こりやすいことは既に述べたとおり。しかし直近のニュース記事を話題にしたいこともあろう。そこで、次はハイパーリンクの参照関係を自動でメンテナンスするという発想を促したい。単純なアイデアとしては、先読みしてエラーになる場合はリンクを明示しないというやり方が考えられる。

サーチエンジン向けの最適化、いわゆるSEOのお作法においても「ハイパーリンクの参照関係は常にメンテナンスして、参照先が存在しないリンクは削除すること」という指摘もある。「404 Not Found」は1つの文化にもなっているとはいえ、エラーが幅をきかせているのもいかがなものか。工夫の余地は、まだ残されている。

  • ご指定のページ(URL)は見つかりませんでした: 404 Not Foundの一例
  • デジタルオブジェクト識別子: Wikipediaによる解説
  • [HotFix Report] セキュリティ用語: ダングリング・ポインタの説明
  • 初心者ホームページ作成術: SEOの一環として、リンク切れをチェックするツールを紹介している
  • Check websites for broken links: 今回の実験で利用したチェックツール、Linkchekderのプロジェクト・ウェブサイト(英語)
  • 404 Research Lab: 404エラー画面はカスタマイズできる。様々なウェブサイトの面白い404画面を集めているサイト(英語)
  • 404NOTFOUNDという名前のインディースバンドもある
  • 飯尾, “技術コラムにおけるWebリンクの寿命,” 第10回情報科学技術フォーラム (FIT2011), 講演論文集第2分冊, pp.163-166, 北海道 函館, (2011.9).