ニュースサイトは自分で作る

ニュースクリッピングサイトとは、興味深いインターネット上の記事へのリンクをその要約とともに整理してあるサイトのことである。このようなニュースクリップは、サイト運営者と興味の対象が一致すれば非常に有益なものである。わざわざ自分の bookmark を網羅的に探さなくても興味深い記事にたどり着くことができる。例えば、筆者が日頃お世話になっている shikencho.com、 ZINE-CLIP、 4im.net は、筆者にとっては業務上非常に役に立つ情報が多く非常に重宝している（その他、業務上は役に立たないが重宝しているサイトも多数あり）。

しかし、このように多くの人にとって面白い情報を毎日いろいろなところから捜し出してこれる人というのは、桁外れた「絶対リンク感」のある人であって、そうそういるものではない。しかも、自分の興味の対象が一致するサイトとなるとその中でも限定されてしまう。だからといって、自分でいろいろなサイトを網羅的に見ていく時間がとれないという人も多いだろう。そこで、自分の興味や研究対象に応じた、しかも up-to-date なニュースサイトがあればなぁ…というニーズが存在するわけである。

ニュース記事の自動収集

このようなニュースクリップを(半自動的に)作成するものとして、最近注目されているのが、XML形式でサイトの見出しを記述する RSS (RDF Site Summary) である（Take IT Easy 2003/9/16 記事「アンテナで巡るアクティブサイト」参照）。あるいは最近になってRSSと競合するフォーマットとして Atom Project もある。 RSS を提供しているサイトも増えつつあり、多くの blog サイトが RSS をヘッドライン配信の手法として利用している。 RSS を読み込みヘッドラインを自動生成する RSS リーダはちょっとしたブームにもなっている。 RSS リーダを使わなくても、 RSS フィードを参照するように自分のウェブページに仕込んでおけば、簡単に自分好みの最新ニュース記事クリップを作ることができる。

しかしながら、RSSフィードはあくまで、サイト提供側が提示している情報である。また複数のサイト間での情報の重複も多く、最新ニュースが羅列してあるだけではわかりにくい。 RSS リーダの中には、ユーザがキーワードを指定して自動的に分類できるものもあるが、必ずしも自分に興味のあるものだけを選り分けてくれるわけではない。できればもう少し整理して見たいものである。さらにいえば、 RSS を公開しているサイトは増えて来ているとはいえ数が限られているから、取得できる情報には限りがある。

ニュース記事の自動クラスタリングと要約

このような複数のリソースから発信されるニュースを整理して表示させてくれるものとして、 Google News がある。日本語版も 9/1 から公開されているので、ご存知の方も多いだろう。

これは数百(英語版では数千)のサイトから得られた最新ニュース記事を自動的にクラスタリングし (つまり類似した記事を一つにまとめ)、その中で最も多くのニュースサイトで取り上げられている記事を代表記事として表示させるというものである。 Google News はRSSをつかっているわけではないので、こういった仕組みを個人レベルで構築することは困難ではあるが、逆にどのようなサイトであっても技術的には情報を取り込むことが可能である。

類似のシステムとして、コロンビア大学の Newsblasterやミシガン大学の NewsInEssence がある。これは単にクラスタリングするだけでなく、複数記事の内容を自動的に要約して提示する機能を備えている。また、ユーザの要求に応じてリアルタイムに情報を収集し要約を作成することもできる(WebInEssence)。さらには、こういった同一内容のニュース記事の中から変化があった場合にのみ見たいというニーズもあるだろう。東京大学の石塚研で開発されている ChangeSummarizer は WEB コンテンツのダイナミクスに着目し、その変化に相当する部分を要約して提示することができるシステムである。

未来の「ニュースサイト」は自分で作る

このような最新研究動向を見ていくと、何やらいろいろなことができそうな感じがしてくる。例えば、「難しい政治用語はわからないので、小学生でもわかるように優しく解説してある政治ニュース記事が読みたい」、逆に、「専門的に深い内容まで堀下げた経済ニュース記事のみを読みたい」、あるいは、「スポーツ新聞のサイトを業務時間中に見ることもできないので、イチローがヒットを打ったときだけ教えて欲しい」、「他の記事とは異なった視点で書かれた記事が読みたい」、「電車が遅れているときだけ遅延状況を教えてほしい」などなど。おそらく人によって無限の価値観・ニーズがありそうだ。つまり、究極は自分自身のニュースサイトを作るしかない。

こうしたニーズにこたえるには、ニュース記事を自律的に捜し出してくれるエンジンと、その記事が上のような評価基準に合致するものかどうか、特徴を判定する機能、さらには、類似記事のまとめ、要約、優先順位付けといったところがあれば、何とかなりそうである。テキストマイニング技術は、従来の自然言語処理技術から一歩進んで、近年は応用研究が盛んである。特に、ウェブコンテンツを対象とした特徴抽出や類似性判定に関する研究が多い。上のようなさまざまなユーザのニーズに応じたテキストの特徴抽出とその評価方法を、たとえアドホックな方法であっても適切に定義できれば、上のような仕組みはさほど難しいものではない（逆にいえば、研究ネタの宝庫でもある…）。

さまざまな特徴を抽出し分析を行うための個別要素技術は整備されつつあり、今後テキストの持つさまざまな様相を解析するツールが出現してくるだろう。「ニュースサイトは自分で作る」。そんな日が近付いているといえそうだ。

本文中のリンク・関連リンク：

shikencho.com
ZINE-CLIP
4im.net
「絶対リンク感」(Take IT Easy 2004年2月17日)
RSS の解説 (wikipedia)
国内のRSS 対応サイト一覧
The Atom project
Google News (日本語版)
Newsblaster(コロンビア大学)
NewsInEssence (ミシガン大学)
アンテナで巡るアクティブサイト (Take IT Easy 2003年9月16日)
ChangeSummarizer の論文 (英文)。東京大学石塚研究室