知識共有技術としてのオントロジーとソシオロジー

知識管理という言葉が注目を浴びるようになったのは、1990年代後半のことである。 当時は、知識創造プロセスのマネジメントとしての理論的な探求の一方で、 企業や組織内における知識管理の具体的な実践に関しては、 つまるところ、ドキュメント管理やコミュニケーション手段の確立にあった。 1999年に米国で知識管理の実態調査を行ったことがあるが、 特に実用的アプローチを重視する米国では、 知識管理=ドキュメント管理と最初から決めてかかっているところが印象的であった。

知識管理基盤技術として注目されるオントロジー技術

さて最近、 必要があってここ数年の知識管理の国際会議の予稿集を見ていて気づいたことがある。 以前に比べて、知識共有や知識伝承、コミュニケーション手段の基盤技術として、 オントロジーをベースにした研究が非常に多くなっている (正確に数えたわけではないので、あくまで感覚的なものだが、たとえば、 Practical Aspects of Knowledge Management の 1998の発表タイトル2006の発表タイトル)。

ただ、オントロジーといってもその意味するところは非常に広く、 なかなかこれが何であるか、一言で言い表すことはできない。 私なりには「情報を意味的に理解し、活用するための道具」と考えているのだが、 そう聞いてもピンとこない人も多いだろう。 より具体的なイメージで語るならば、 RSSなどのようにコンテンツにタグをつけて管理する仕組み、 といってしまうとわかりやすいが、これだとオントロジ研究者からはお叱りを 受けてしまう。実際には、 RSSなどのタグ付けの仕組みは簡易なオントロジーのひとつの実現手段であって、 RDFOWL といったより意味構造を取り込んだ表現形式もまた提案されている。 これもまた定義は正確ではないが、 前者をライトウェイトオントロジー、あるいはオントロジーのメタデータ的利用法、 また後者をヘビーウェイトオントロジー、 あるいはオントロジーの知識モデル的利用法などと呼ぶケースもある (このへんの議論は 「Web2.0 時代のオントロジー利用雑感」 に詳しい)。

企業や組織、さらにもっと広い範囲(おおげさにいえば人類間) での知識の共有と活用がその目的であるならば、 扱う知識や情報の意味構造を理解して行うというのは極自然な発想である。 要は、その領域やタスクの知識、関連性を形式化し、これを用いて 知識の創出、共有のさまざまな局面に役立てようという試みである。

無論、予稿集での論文が増えてきたということが意味するところは、 企業の実践レベルで活用されるようになってきたというよりは研究レベルのものと考えるべきであるが、 知識の共有においては、単なるドキュメント共有といったフェーズを過ぎて、 異なるグループや利害関係を持つ人の間での情報共有においては、 意味をふまえた知識共有が必要であるということが改めて認識されるようになってきた、 ということであろう。 さらに、テキスト情報の理解というだけではなくて、 社内外のサービス連携も含めたオペレーショナルなものが検討されており (つまりサービスの意味づけである)、 つまりこれはセマンティックウェブの流れとほば合流するのである。

セマンティックウェブ、あるいはウェブオントロジーへの批判

一方で、セマンティックウェブ、特にヘビーウェイトなオントロジーを用いたもの に対しては批判も多い。 こういった批判においては、かなり極端なケースで議論されるが常ではあるが、 人類の持つ知識が RDFで表現できるとは思えないし、 仮に表現できたとしても誰がそれを作るのか? すべてのウェブコンテンツがそのように記述されるのを期待するのは不可能である、 といったような批判である (このへんの対立の様子は 「アンビエントファインダビリティ」 の第6章に詳しい)。 セマンティックウェブのように あらかじめ意味構造を取り込むことを意図したものに対して、 情報の意味構造を厳密に定義することせずに、 ユーザのアクセス履歴や自発的な情報推薦を元にするアプローチはソーシャル アプローチと呼ばれる (本記事のタイトルでは、 語呂合わせを重視してオントロジーに対してソシオロジーとした。無論、 ソシオロジーは意味するところが広すぎるが…)。

こうした対立はかつての強いAI、弱いAIの対立構造を彷彿させる。 前者は知能自体を機械で実現しようとするのに対し、後者は 知能自体の実現を目指すのではなく、 知的に見える作業を機械に代行させようとするアプローチである。 この種の議論がややもすると哲学的な袋小路に陥りがちであるのに対し、 オントロジーをめぐる議論は、実は意外とプログラマティックかもしれない。 というのは、 どちらのアプローチも実用的なアプリケーションが生まれており、 ユーザの視点から具体的な議論をすることが可能だ。 たとえば、ウェブオントロジーに関しては、ニュース記事配信の RSS、 書誌情報の Dublin CoreFOAF などがある。 オントロジーにもっと哲学的な意味を含めるとすれば、 これらの形式はいささか簡易に過ぎるものではあるが、 形式を厳密に定めることにより、 これらを共有する仕組みを簡単に構築することができている。 また、後者は amazon のリコメンド機能や、 写真共有サイト Flickr、 ソーシャルブックマークの del.icio.us でのフォークソノミーなど。 これらは情報の意味を考慮してタグ付けされているわけではない。 単に、購入履歴の相関に基づいていたり、誰かが薦めているだけの話なのだが、 実際のところそれは役に立つ。

今後はオントロジーとソシオロジーの融合も

結局のところはどちらが正しいアプローチということではない。 当たり前のことだが、対象とする情報とその使い方によって異なってくるのだ。 たとえば、価格情報、書誌情報、個人プロファイル、実験データ、 ニュース記事に含まれるタイトル、発信時間などの情報は、 コンテンツに対するユーザ要求が明確であって、定型的なタグ付けが可能である。 一方、ブログやコラム、評判情報、製品情報、 あるいはニュース記事の内容に関しては、 ユーザにどのような要求があるか明確でなく、 今のところソシオロジー的アプローチが有用である。 関係の意味にまで考慮したヘビーウェイトなオントロジーは、 難しすぎる上に有用性が見えない、などとかく批判されがちであるが、 科学技術分野はひとつその有力な候補であろう。たとえば、 分子生物学の共有データベース化を目的としている BioPAXでは、 従来各研究機関で独自に行われてきたデータの意味づけを統合し、 共通利用しようとする試みである。

オントロジー的アプローチ、ソシオロジー的アプローチ、 どちらがどの程度、どんなコンテンツに対して有用であるかは、 今後の技術開発に依存している。 マイニング技術を融合したアプローチ、コミュニケーション理論に基づく アプローチなど、さまざまな既存技術の統合により進化が期待されている。 そしてさらに、両者はどちらかが勝つ、といった排他的なものはなく、 極端な方向性を意図的に探求するのでなければ、 ハイブリッドな情報への意味づけ手法といったものも期待できるのである。