データの有効期限はいつまで

ブログをはじめ、ライフログなど、とにかく何でもデジタルで記録しておいて、検索技術で利用者のニーズをカバーするというのが今の流行りだ。 現状では、ストレージのコストや通信インフラのコストなどのコストや情報の供給よりも消費の方が過多である状況を考慮すれば十分成り立つ方法だろう。 しかしながら、とにかく大量に集めて処理することが議論の中心となっており、本当に必要なデータを誰がどれだけ生産して、誰がいつまで使うのかということはあまり考慮されていないようだ。今回はデータの寿命を考えてみたい。

データの寿命

通常、人の噂も75日と言われるように情報が持つ価値は時間と共に減少していくことが多い。経験則であるパレートの法則、いわゆる2-8の法則を当てはめると、最新の情報2割に8割のアクセスが集中し、残りの古い情報にはアクセスはほとんどない可能性が高い。すべての情報を同等に扱って管理することは主としてコスト面で非効率である。そこで、情報のライフサイクルに合わせて、必要なサービスレベルを決めて管理するILM(Information Lifecycle Management) という考え方が浸透しつつある。例えば、多くのストレージシステムでは、古くなったデータを外部保管しやすいテープに移したりしている。 ただし、使用するストレージの容量が大きくなっているため、バックアップするのに多大な時間を要するようになっていることもあり、一度ディスクからディスクにコピーしてからテープにアーカイブを取る D2D2T(Disk to Disk to Tape)という方式が取られている。

ところで、このようにテープにアーカイブしたデータについても一体いつまで保管すればいいのだろうか。アーカイブとはいえ、やはり保管にはコストがかかるのも事実だ。企業が有するデータとしては、例えば、企業の決算情報はいわゆるe-文書法等での法律でデータの最低限の保存期間が決められているものもある。カルテなど企業が持つ個人情報も5年間をメドに保存されていることが多い。特に、J-SOX法の施行に伴いログを厳密に管理することが求められている。また、公的機関が作成した公文書についても保存方法に関する検討が行われている。

一方、個人が有するデータを考えてみると、最も長く保存されているデータは写真かメールだろう。何らかの原因によりデータが消失するまで保存するのが一般的だろう。消失のリスクを減らすために、外部のサービスを使うケースもある。いわゆるフリーメールや画像共有サイトでは1GB以上の保存が可能であり、一般的な使い方ではいっぱいになることは少ないだろう。実際、いつでも検索できるので消す必要がないということを利点に挙げている。ただし、そのサービスがいつまで使えるのかは必ずしも明確ではない。ブログのサービスも同じようにいつまで使えるのかは不明だ。

規格の寿命

保管していた古いデータを利用したくても使えないケースがある。 国際的、あるいは、国内で標準化された規格があったにもかかわらず、別の規格に移行して市場が縮小すると装置も記録メディアも手に入らず、使われなくなってしまうことがある。例えば、15年前には現役だった5.25インチのフロッピーディスクや10年前には大容量MO、映像系の規格で言えば、古くはβやLDなどがある。VHSテープでさえ使う機会が少なくなってきている。HD DVDも非常に短命な規格だったことは記憶に新しいところだ。また、iPodなどのシリコンオーディオプレイヤーの普及により、カセットテープやMDもかなり絶滅の危機にある。

また、バージョンの古いソフトウェアで作られたデータを扱えない場合もある。 1世代前のバージョンからの移行は保証しても、大幅に古いものについては対象外になっているソフトウェアも多い。そのため、特定のソフトウェアに依存しない文書方式が求められている。そのため、現在ではXML形式を使った様々なフォーマットがISO等の国際標準化機関で検討されている。

メディアの寿命

せっかく記録していた記録メディアもある程度の劣化が避けられない。 テープでもほこりや高温度多湿でカビがはえたり、伸びて使えなくなるケースもある。 光学系のディスクの場合には、日光等の強力な光でダメになるケースや中のディスクが錆びたり、傷が付いたりするケースもある。ハードディスクの場合にはドライブが機械的に故障したりする。

そうしたトラブルを回避するために、通常複数のバックアップを用意して、冗長度を高くする等の対策が考えられる。 メディアを正しく保存した場合には10年以上であり、規格の寿命よりも長いことが多いので、定期的にその時にシェアが最も高いものに規格の記録メディアをコピーしていくことで、規格の寿命にも対応できる。

長生きするデータは価値が高いか

結局、企業も個人も保管するコストを考えると、データとして有効なのは10年程度なのではないだろうか。そもそも、よほどのデータでない限りそこまで古いデータにアクセスする機会はほとんどない。しかしながら、決められた期間で捨ててしまったことで様々な悲劇が発生しているのも確かだ。主な原因は、将来におけるデータの重要性が評価できないため、どれだけコストをかけて保管するのかを決められないことである。

現時点では、データの生成量に比べて、ストレージの供給量とネットワークインフラのコストが安いため、全てのデータを集めておくという戦略が成り立っている。 WebBack machineのような一部のコレクタが保存している大量の情報が将来価値を持つ可能性もあるものの、博物館に残されている情報が洗練されているようにそれは極一部だろう。また、今後映像やセンサの情報などを全て記録することも想定され、将来的に人が扱うデータの量が減ることは考えにくいことから、大量のデータを検索する技術だけではなく、必要なデータのみを残す技術にも期待したい。