Web2.0的な世界とセマンティックWeb

以前 Web検索の切り札となるか？セマンティックWeb(TakeITEasy 2002.08.27) という記事を書いた。あれから約４年、ブログやニュースの更新情報を提供するRSSは普及したが、それ以外の部分では、WebはHTMLという極めて自由度の高いデータのまま、個人の活動の場として発展し、今、Web2.0という言葉で1つの概念を与えられている。

Web2.0は不特定多数の集合知の基盤

Googleや Wikipedia 、ブログについて語るWeb2.0は、不特定多数の集合知を意味するソーシャルデータベースの側面がある。 Wikipediaは、不特定多数が作成・編集する百貨辞典であり、 Technorati Japan は、ブログを対象とした検索エンジンである。これらは、特定の団体が特定の目的をもって作成した旧来の概念のデータベースに対して、不特定多数の人々が、勝手に作成した情報を集合知として検索できるという意味でソーシャルデータベースと呼ばれる。 Web2.0で語られる”User as Contributor”としてのソーシャルデータベースは、最近のブログやWikiの加速度的な進歩をみているとこれからも益々発達していくように思われる。

Web2.0を解説したティム・オライリー氏は、「Web2.0は、ユーザが参加できる環境を提供する基盤である」と述べている。Googleは、初期の段階でページランクという「他からのリンクが多いものが情報価値が高い」という検索の仕組みを提供した。ブログはRSSリーダーにより更新情報を一括取得できる。アマゾンやGoogle Maps は、REST(Represetational State Transfer)により、自サイトのデータを他サイトが手軽に活用できるように公開している。

Web2.0とセマンティックWeb

Web2.0が現在のHTMLやブログというWeb上で起きている状況を前提としているのに対し、セマンティックWeb は、自由を与えすぎたWebに、データと見栄えの分離、データの意味づけをしくみとして与えようというものである。 Webで起きている現状を概念としてまとめたWeb2.0と、計画的かつ標準化という手法で Webの機械処理を促進しようとするセマンティックWebは、一見背反する概念のように思えるが、実のところ、Web2.0あるいはその先のWebの進化系を、ツールとして実現するしくみの1つがセマンティックWebではないかと思われる。

セマンティックWebで提唱されているように、カレンダーやシグネチャや財務諸表などが世界共通の様式として定義され、これがWebやメールで流通する方向になり、 Webブラウザや検索エンジン、ポータルサイト、メーラは、これらの様式をうまく扱えるようになるのであろう。

やわらかな検索システムへの期待

一方、セマンティックWebのいうメタデータがどの程度普及するかは、やや疑わしい。現在、RSSが提供する日付、タイトル、コンテンツ以外に、コンテンツをさらに分類し、タグづけするということは、少なくとも個人には至難の業だし、そもそも日々生まれる雑多な情報にタグをつけつづけることなどできないだろう。業界団体が統一した認識を持つことができれば、この範囲では有効と思われるが、今のWebがそうであるように、クライアント側では将来のWebも敷居が低くシンプルな技術に基づき発展するように思われる。これを補うのが検索エンジンなどのサーバサイドの技術となろう。

雑多なソーシャルデータベースに対するより効果的な検索を求めて、検索エンジンのさらなる進歩を期待したい。例えば、 MOTプラットフォームの検索エンジンは、筆者が以前、開発に携わった検索システムであるが、文章を品詞分解し、意味の近い語を含むファイルを同じ集合に分類し、この集合を1つの六角形のセルで表し、検索を進めることができる。キーワードや全文検索でなく、セルから検索できるので、正確なキーワードを知らなくても検索でき、意味の近い領域も検索できる。品詞分解に加え、構文解析の結果の主語、述語、目的語などを加味すればより効果的な意味解析ができ、そのような研究もなされている。 Googleは、網羅性という観点では、 Yahooのようなディレクトリサービスより有効と思うが、このような、曖昧性を許したやわらかな検索エンジンがあってもよいのではないかと思う。

本文中のリンク・関連リンク：

Wikipedia(日本語版)：不特定多数が作成・編集する百貨辞典
Google Maps(日本語版)：地図ベースの情報を提供。APIも公開。
Technorati Japan：リアルタイムブログ検索
Web検索の切り札となるか？セマンティックWeb(TakeITEasy 2002.08.27)
:Webデータを意味づけし検索精度を高めるための規格。 W3C Semantic Web
MOTプラットフォームの検索エンジン：概念の近い語句を含む文章を効果的なGUIで検索できる。