情報資源を持つことの意味と意義

一般社会にコンピュータが普及して30年近くになるだろうか。 この間、いうまでもなくハードウェアは劇的な進歩を遂げ、 また、アルゴリズムや実装技術も一定の進歩を見せてきた。 さらに、最も大きな変化があったのは情報量の爆発的な増大である。 しかしながら、ハードウェアをはじめとする計算資源の進歩の恩恵を 十分に享受できている現状に対して、 残念なことに、絶対的な情報量の増大に対して、 質的な意味での十分な進展がないのが実情である。 むろん、Google に代表されるように、想像を絶するコンテンツの中から 瞬時に必要な情報を探し出す能力は一昔前には到底考えられなかったことであるが、 本当に価値のある情報を見つけ出すことができているのか、 膨大な情報の海におぼれて右往左往してしまっているのが現状ではない だろうか。

今回は、価値の高い「情報資源」そのものを有することが、 今後の情報産業にとってかけがえのない競争力の源になることを論じよう。

データと知識、情報資源

さて、ここでいっている「情報資源」とは何か ? よく「データ」と「知識」の違いといったことが議論される。 詳細に立ち入ることは避けるが、一般的には、 データとは客観的な事実(観測データであったり、あるいはネット上の コンテンツそのもの)を指し、知識とは、問題解決に直接的に利用できる ようにルール化されたものを指すといってよいだろう。 また、一般的にいって、データを知識に加工するには想像以上の 多大なコストを要することは、90年代の知識エンジニアリング方法論が (少なくとも当時の技術では)うまくいかなかったことを考えれば明らかであろう。 (なお、データ、知識等のさまざまな解釈については、例えば、 What is the meaning of “data”, “information”, and “knowledge”? 等に解説がある)

ここで「情報資源」といっているのは、データと知識の間、 すなわち「データ」よりは「知識」的であり、「知識」よりは 「データ」的なものである。 わかりにくい表現だが、「データを整理・集約して構造化したもの」 といってもよいだろう。 より手っ取り早くいえばオントロジーといっても良いが、 以下ではもう少しゆるい意味、すなわちよく整理された情報の集まり、 という程度の意味で捉えてもらいたい。

情報資源の例

このような情報資源の例としてすぐに思いつく例は、言語資源である。 言語資源とは、 同義語、類義語、上位語、下位語、また、さまざまな局面における コーパスを収録したデータベースのことを指す。 検索エンジンや翻訳など、いわゆる自然言語処理では、 技術的な精度だけで勝負することは難しくなってきており、 膨大な言語資源の利用なしでは成り立たなくなっている。

従来、英語圏では WordNet に代表されるように、 膨大な言語資源の共有化が進められていたのに対して、 日本語においてはその整備は十分ではなかった。 こうした問題意識を受けて、NICTでは、 日本語 WordNetの構築を進め、 昨年より公開を行っている。 日本語のテキスト処理自体が汎用的な技術になっている現在、 こうした膨大な言語資源を共通で利用することによる意義は極めて大きい。

また、言語資源以外では、例えば、 医療診断事例の蓄積による診断への活用がある。 初期の医療エキスパートシステムは、 処理方法としては現在と比較して決して劣っていたわけではないが、 決定的に欠けていたのは、知識をどのように作りこむかという点であり、 これが知識エンジニアリングという分野が作られる一つの契機ともなっている。 しかし、専門家が方法論だけで膨大な知識を作りあげていくには限界があることもまた明らかとなった。 つまり決定的にかけていたのは、医療事例なのである。 現在では、電子カルテの普及やレセプトのオンライン化により、 医療データの蓄積やこれを共同で利活用することも原理的には可能になっている。

今後期待される情報資源

上記のような言語処理や医療、あるいはバイオといった分野での情報資源は比較的わかりやすいが、 学術分野以外でも今後さまざまな情報資源の活用が期待できる。

例えば、今後データの収集が期待されるロケーション情報。 GPS携帯端末の普及により、一定間隔での位置情報の集積が今後期待されている。 どういうタイプの人はどこでどういう行動をするかといった、 データから推定された人の行動パタンを整理しておくことは、 マーケティングにおける消費者の行動予測や道路交通行政等の公共用途での利用が期待される。

購買データやサービスの利用履歴などからも、 顧客の嗜好を情報資源として活用できる可能性がある。 実際、POSデータやレセプトデータ等では、 複数の事業者からデータを収集し、それらを活用するビジネスが進展しつつある。 現状では、統計的なマーケット分析サービスにとどまっているものの、 今後は、顧客行動のモデル化による広告やリコメンデーションといった分野への活用も期待できる。

また、家庭内のDVDデコーダーの録画記録や、レンタルビデオデータ等から、 エンターテインメント分野での消費者モデリングを行って、 番組制作やリコメンデーション等にも活用したり、 さらに、食品や健康分野では、食生活や運動行動の記録により、 健康指導のための共通情報資源としての活用も期待できる。

こうした情報資源は、 どのように構造化してどのように使っていくかという点も重要だが、 何はともあれ、まずは、このような潜在的に価値あるデータを蓄積していく意義は大きい。

このようなデータやコンテンツの重要性はもちろん今にいわれたことではない。 しかし、単なる生データやコンテンツではなく、 構造化された情報資源として蓄積・活用することに意義がある。

情報資源を構築・活用するために

情報資源の構築方法としては、先の WordNet のように 人手をかけてデータを集め作り上げていく方法と、 自動的にデータを収集し加工するといった2つの方法がある。 また、Wikipedia のようにオープンな環境で構築する方法もあれば、 少数の専門家やフィールド調査・ アンケート調査によりデータを集めていくような方法もあるだろう。

分野にもよるが、少なくとも現状では、 自動的に構築しつつ一定の質を担保していくのは困難な面も多く、 専門家が監修した情報資源の付加価値が高いように思われる。

従来、ソフトウェア企業をはじめとした情報産業においては、 ハードウェアの品質や、サービスの機能、また、より技術的にいえば、 アルゴリズムや実装技術といった面に焦点が当てられてきた。 しかしながら、ハードウェアの品質やサービスの機能そのものでは 大きな差は生じにくい一方で、情報資源については持つ持たないの差は決定的である。 質が高く利用価値の高い情報資源を大量に収集・蓄積できる基盤を有すること、 また、これら大量の資源を的確に処理する基盤を有することが今後の競争力の源になりうる といっても良いだろう。 ハードウェアの性能が向上し、またサービス機能も多様化する中で、 膨大な情報量を見せるだけではもはや競争力はない。 価値ある情報資源をどうやって持つのか、そのためにはどうやってデータを集めて いけばよいのかからまずは考えてみることが必要であろう。