ブロードバンド時代のパーソナルサーチエンジン

Search Engine Watch では、毎年、サーチエンジンに関する評価を行ない、 Search Engine Award を発表している。 2002年の受賞を見ると、 総合評価としては、Google や Alltheweb の評価が高いようだが、 サーチエンジンの評価方法として、 どのくらいのページ数を収集しているか、という尺度があるかと思う。 たとえば、 Googleでは、 その数 30億ページ、 Allthewebでは、 21億ページとなっており、 いずれにしても膨大な量のページをデータベース化していることに驚かされる。

適合率と再現率

さて、一般にサーチエンジンは、 対象とするページ数が多ければ多いほど良いかというと、 必ずしもそうはいいきれない。 情報検索の尺度は、一般に適合率 (precision) と再現率 (recall)を用いることが多い。 検索結果には通常、本来検索したかったページ(以下、正解とする)の他に、 関係のないページ(不正解)が含まれている。 適合率とは、検索結果中の正解の割合(正解率) を表し、 再現率とは、 検索結果として現れた正解がすべての正解に占める割合(カバー率)を表す。 いうまでもなく適合率、再現率ともに高いのが望ましいのであるが、 一般に、適合率と再現率はトレードオフの関係にある。 対象とするページ数を多くすれば、再現率を向上させることは容易であるが、 逆に適合率が下がってしまうと、ユーザの満足度は低下する。 Yahoo! などに見られるディレクトリサービスは、 主に適合率を重視した検索サービスで、 インターネットの情報を網羅的に探索できるわけではないが、 多くの場合的確なページを捜し出してくれる。 一方、Google などのロボット型検索は、一般的なキーワードに関していえば、 ディレクトリサービスに比べて適合率は高くないが、 ページを多く収集することによって再現率を高くすることができるので、 網羅的に情報を収集したいときなどには便利である。

専門特化型ロボット検索

さて、このようなサーチエンジンは、 ディレクトリ型にしてもロボット型にしても、基本的には汎用検索エンジンである。 網羅的なロボットといっても、リンク構造に深さ制限をつけ、 あまり一つのサイトに深入りないような制御が加えられているのが通常だ。 したがって、もしある特定の分野について、より深い情報が知りたいという場合には、 専門検索サイトを利用するのが賢明である。専門検索サイトは、 従来専門家が独自に情報を収集し、 データベース化していくのが通常であったが(いわば専門ディレクトリ型)、 最近では、ロボット型の専門検索サイトも増えてきている。

たとえば、筆者もよく利用している NEC 北米研究所の CiteSeer は、科学技術論文を半自動的に収集し、引用関係 (citation)に基づく インデキシングを行なっている。 CiteSeer の情報収集ロボットは、 AltaVista や Exciteなどで用いられているのと同じサーチロボットであるが、 論文が公開されている可能性が高い “publications” “papers” “postscript” などのキーワードがあるページを優先的に検索するようになっている。 また、学会、大学、研究所や、メーリングリスト、ニュースグループなどに 含まれる URL を自動的にデータベース化し、ロボットのスタートポイントとしている。 収集された論文に対しては、キーワードの解析を行ない、 ユーザの検索要求に対応するためのインデキシングを行なうとともに、 引用関係を解析し、 関連論文(参照している論文、ならびに参照されている論文) を同時にユーザに提示することができる。

こうした専門特化型サーチエンジンを構築する技術として、 フォーカストクローラ(Focused Crawler) あるいは知的クローラと呼ばれるものがある。 一般のサーチエンジンでは、 指定されたスタートポイントから、 サイトの深さ制限に従ってリンク構造を網羅的に辿る。 これに対し、フォーカストクローラでは、 訪問したページに対して、 ユーザが指定したトピックとの類似性をあらかじめ作成されているカテゴリー構造やシソーラス、 確率モデルを使って求め、類似性が高いと判断されたページに対しては、 さらに深く辿って情報を収集するものである。 フォーカストクローラは、1999年の WWW Conferenceでその概念が提唱されたものだが、 以降毎年、クローリングセッションの中で関連研究が報告されている。

実用上のものとしては、上で挙げた CiteSeer の他に、 オンラインショッピングの情報を自動収集し、 値段比較を一覧表で結果を表示する Shopbot、 科学技術関係の専門検索サイトである Scirusなどがある。

デスクトップにサーチエンジン

さて、このような目的特化型の要求をつきつめれば、 最終的には個人の好みでサーチエンジンを独自に作りたいという要求も自然な流れだろう。 たとえば、 購入を検討している車や就職を検討している会社に関する噂話をできるだけ集めたいとか、 自分の興味のある研究分野に関するデータベースを作りたいといったニーズは自然にありそうだ。テキスト情報以外にも、 好みのイラストや画像、動画を自動で集めたいというニーズもあるだろう。 個人レベルで、 Google や Alltheweb のように、 数千台の PC を並列に数週間走らせて、 情報収集とインデキシングを大規模に行なうことは到底無理だが、実際、 個人が利用する情報や興味、また言語的な制約を考えれば、 収集すべき情報はごく一部に限られている。 逆に、個人の興味にしたがって、収集範囲を絞り込むことで、 タイムリーな情報を得ることも可能になる。

近年のブロードバンドの普及、デスクトップパソコンの 処理能力やディスク容量の増大などから考えると、 自分の好みに従って深夜に自動的にデータ収集を行ない、 自分自身のサーチエンジンをデスクトップ上に作ることも現実的には難しい話ではない (たとえば、東芝、国立情報学研、北陸先端科学技術大学院大学が共同で開発を行なった Mobeetは、 ユーザが自然言語で知りたい情報を入力すると、 エージェントがインターネット上で、ユーザの代わりに 欲しい情報を検索・収集し続けるというものである)。

ユーザの知りたい情報というのは、 きちんとキーワードや文章として明示できるものも多いが、 本当に知りたい価値ある情報というのはもう少し漠然としていて、 明確に条件を指定できないものも多い。こうした意味では、 データマイニングやテキストマイニングといった技術との融合も求められるだろう。 今後は、よりユーザの意図をより的確に汲み取り、 気の利いた判断ができるクローリングエージェントの開発が待ち望まれるところだ。