データを捨てる技術

オフィスの引越しがあり、この機会に大量の資料を捨てた。 過去の仕事のドキュメント類である。 書類は廃棄しなければ一方的に増える一方で、 オフィスのスペースには物理的な限りがあるから、 どうしても定期的に捨てざるを得ない。 捨てることが苦手な私としては、 捨てていいものかどうか延々時間をかけて悩んでしまったり、 挙句に必要なものまで捨ててしまった。 ものの捨て方も含めて、「整理術」というものがいろいろいわれているが、 常日頃から必要なもののみを選別し、 不要なものは都度廃棄していくということが重要なのであろう。 これからはそうしていこう。それはさておき …。

一台のPCに蓄積できるデータ

物理的なモノはいつかは捨てることになる。 しかし、個人のPCに保管された電子的なモノはどうだろう。 パソコンを替えるときに、 既存のファイルやデータを廃棄しなければならなくなった、 ということは最近ではほとんどないはずだ。 新しいパソコンに買い換えるときには、 ストレージ容量も増えているのが普通だと思う。 では、実際のところ、捨てる必要はないのだろうか。

現在、一般に販売されているPCでは、40GBくらいは最低でも標準でついてくる。 仮に30GBをデータ領域として使えるとして、 どのくらいの情報を入れることができるだろうか。 よく例えに使われる新聞でいえば、新聞一面がテキスト情報だけで約 30KB、 一日分で30ページとして、約1MBである。 テキスト情報だけなら約80年分をそのまま蓄積できる。 仕事で使う報告書やレポートの類ではどうだろう。 1レポート当たり 1MB のファイルだとすると、3万レポート蓄積できる。 写真であれば一枚あたり1MBとして約3万枚。 おそらく個人のレベルでは、30GBあれば ほとんどの書類、画像データは捨てる必要がないほどであろう。 映像データであれば多少大きくはなるものの、 ハードディスクを増設しておけば概ね用は足りる。

では、個人のPC上のファイルは廃棄する必要はなく、 うまく取り出せるように整理しておくだけでいいのだろうか。 実は、個人が管理するPCでも膨大なデータ量を必要とするアプリケーションが考えられている。 いわゆるライフログと呼ばれるものだ。

PCに格納しきれないライフログ

仮に自分が体験するあらゆるものを記録すると考えたとしよう。 人間がいわゆる五感から得る情報量は、視覚が1000万ビット/秒で、 その他の感覚系をあわせると毎秒あたり1100万ビットらしい (ハイデルベルク大学のツィメルマンらの研究による)。 感覚系の情報量は研究によって微妙に数値が異なるようであるが、 仮にこの数値に基づくなら、30GBのストレージであれば、人間の感覚系は、 そのままだと約6時間分しか記録することができない。 一般的にはかなり冗長な情報が含まれるから、相当な圧縮効果があるにしても、 一生分を記録するには程遠い。さらに検索のためにインデクスをつけるとすれば、 容量はその数倍にもなる可能性がある。 おそらく一生分を記録しようとするなら数ペタの容量が必要である。 さらに五感以外の環境の付帯情報を入れればさらに膨らむ。 いくらストレージが大きくなるといっても限度がある。 これはさすがに非現実的だろうし、そもそも蓄積したところで処理しきれない。

自分が知覚できるあらゆるものを記録しようというのはさすがに かなり未来の話かもしれないが、 バーチャルタイムマシン やビヘイビアマイニングというのはそういう試みである。 また、未来の話でなくとも、例えば、 センシングされた生体情報を用いた ヘルスケアシステム は近未来に実現されるであろう。 生体情報の情報量は、五感による情報量ほどではないにしても、 常時記録するとなればきわめて膨大な量になる。 これらの情報をすべて記録しておくのはいずれにしても難しいし、 過去の情報を参照し活用する局面を考えれば、不要な情報は捨て、 必要な情報のみをコンパクトな形式で保持しておくことが望ましい。

人間の学習に学ぶ

当然のことながら人間もまた、数ペタの記憶容量を持っているわけではない (脳の記憶容量は10テラバイトとの研究結果がある)。 そもそも感覚系で得られた情報をすべて記憶しているわけではない。 というより、ほとんどの情報を捨てているはずだ。

実際、感覚系でえられた 1100万ビット/秒の情報の中で、 実際に意識される情報量はせいぜい数十ビット/秒であるという。 きわめて高度な情報の取捨選択、 フィルタリングが無意識のうちに行われているのである。 例えば、本を読んでも一字一句を記憶するわけではない。 その要点のみが意識され、そして記憶されているはずだ。

このように、 情報をリアルタイムで捨てていく技術、 必要な部分のみ選別していく技術が将来のリアルタイム処理系には必要になってくるであろう。 電子情報を入手したその場で、あるいは、 ある程度時間がたったところで必要なもののみを残し、 あとは捨てていくという技術である。 実は、個人レベルのライフログとまでいわなくとも、 このような技術は既に必要になってきている。 例えば、クレジットカード会社の不正検知では、 過去の膨大なトランザクションデータをもとに怪しいと思われるカード使用を検出しなければならない。 すべてのトランザクションデータを保持することは可能ではあるが、 与えられた時間内で過去のデータすべてと比較するのは現実的ではない。 不要な情報を捨て要点のみを保持しておかなくてはならない。

今後は、こうした処理が個人のPCレベル、さらにいえば、 体に装着されたバイタルセンサーのレベルで必要になってくると思われる。 一口に情報を捨てるといっても、何を捨てればいいのか。 これは実は、人間の「学習」の本質である。 どうやって赤ん坊は必要な情報を選別していくことを学ぶのか。 次世代のリアルタイム分散処理は、人間の情報処理に学ぶ点が多そうである。