インターネット上の検索サイトを利用していると、時として思うように検索したい結果が得られず、 イライラすることがある。 検索サイトには Google など全てのWebページを全文検索するものと、 Yahooや All about Japan などの予めサーチャーがインデックスを作成したものがある。 前者ではヒット数が多すぎ、後者ではインデックスにないものはヒットしないという問題がある。
セマンティックWeb
Webのような分散されて運用され、それぞれ別々のフォーマットや分類 で提供されているデータを統合的に検索するしくみとして、 古くからメタデータの活用が提唱されている。 メタデータとは、情報に付随したラベルまたは属性のようもので、 例えば、書籍名、抄録、場所、営業時間など その情報が何を指すかを表すものである。
メタデータの記述には構造化された言語であるXMLが適している。 各サーバ上のコンテンツがXMLでメタデータを記述すれば メタデータを横断的に検索することにより、より意味のある検索結果が得られる。 これがW3C(World Wide Web Consortium)が提案するセマンティックWeb の考え方である。
メタデータ標準化を行っている DublinCore では、同サイトのディジタル図書館で 図書のタイトル、作成者、作成日等のメタデータ標準に基づく検索サービスを提供している。
WebGISポータル
Web上で地理情報を扱うWebGISの分野では、 ポータルの緯度経度情報から各サーバが提供する地理情報を 検索できるしくみがある。 例えば国土地理院のクリアリングハウス・ゲートウェイサーバ がこれにあたる。 情報共有のため、各サイトは地理情報のメタデータの標準化が進められている。 これにより例えば、ポータルサイトの地図から、 あるサイトの観光情報と、別のサイトの遺跡情報をリンクして表示することなども可能となる。
メタデータ作成の難しさ
しかし、メタデータの作成はなかなか大変である。 まず、対応を期待するのが大学や公的研究機関に限ったとしても 膨大な量の既存のコンテンツにメタデータを付与するのは困難である。
そもそもどのようにメタデータを定義するかが難しい。 同様な課題を抱え実用を目指している例として、 電子商取引(EC)の次世代標準規格: ebXML があげられる。ebXMLでは、Webサービスとして提供する イエローページ(レジストリ)で、企業情報や取引プロトコルを提供しようとしているが、 ここでも、データのネーミングの標準化(=メタデータ)には苦労している。 各業界ごとのドメインにおける語句の定義と共通的な語句の定義をグローバルに 行わなければならない。 既存のコンテンツに推論等によりメタデータを付与するという研究もされているが、 メタデータそのものがしっかり決まらないと実用は困難と思われる。
Dublin Coreは著名な試みではあるが、 メタデータの作成が、1つの世界標準に基づいてなされることは到底考えられない。 各ドメイン、文化により標準が異なるからである。 そこで、AI分野で提唱され、データベース検索でも用いられる オントロジー(概念の相互関係)を用いて、 メタデーを横断的に検索する仕組みが必要となる。 仮にある程度Webコンテンツへのメタデータ付与が浸透したとしても、 偽りのメタデータを付与し検索エンジンにヒットし易くするサイトも出てくるだろう。 この意味では偽りのないサイトとそうでないサイトを区別できることも重要となる。
膨大な量のWebサイトから価値ある情報を得るために コンテンツにラベルをつけるというのは、 メタデータのないコンテンツを概念検索や曖昧検索によりフィルタリングするより 確かな方法である。 しかしメタデータ作成には課題も多い。 機械処理できる用語の整備がECから進んだのは、 需要の多さや金銭的メリットからも容易に想像できる。 セマンティックWebが成功するには、 その実装を早い段階で提供することが重要である。 また、Dublin Coreのように広く一般の情報を対象にするのではなく、 ECや電子カルテ等のユーザと利用場面のはっきりしたデータ交換の先行分野から、 その資産を生かしつつメタデータの整備を始めていくのが現実的ではなかろうか。
本文中のリンク・関連リンク:
- W3C Semantic Web
- DublinCore:メタデータ標準化及びその実証サイト
- 国土地理院のクリアリングハウス・ゲートウェイサーバ:GISポータル
- 情報処理学会誌2002 Vol.43 特集セマンティックWeb
- ebXML :ebXMLは商取引全体を見渡して「単一のマーケットプレイス」の構築を目的としてた規格