情報フィルタリングの双対性

「情報フィルタリング」という言葉は微妙に異なる2つの文脈で用いられている。 ひとつは、アダルト情報やスパムメールのフィルタリングのように悪い情報を遮断するものであり、 もうひとつは、ユーザが好む情報、 たとえば興味があるであろう商品情報やニュースを優先して提示するようなものである。

有害情報のフィルタリング

実用化という観点では、見てはいけない情報のフィルタリングは一歩先に進んでいる。 有害情報のフィルタリングでは、 多数のソフトウェア が販売されており、学校や家庭での導入事例が多い。 クライアント側でブロックするものの他に、 プロキシサーバレベルでブロックするものもある。 こうしたソフトウェアでは、有害情報サイトのURLリストに基づくブロック、 あるいは、 指定されたキーワードを含むものなど内容に基づくフィルタリングが一般的な手法だ。 有害情報の定義はほぼ一致しているので、 数十万にもおよぶ有害サイトのリストを事前に用意することができる。 また、スパムメールフィルタリングでは、スパムの特徴を定義しておき、 これに基づいてフィルタリングする方法と、ユーザからのフィードバックにより、 確率的学習手法によりスパム確率を計算させるものと大きく2つあるが、 いずれも十分に実用化レベルに達しているといえる。 これも迷惑なメールの定義が比較的明確であるが故である。

興味のある情報のフィルタリング

一方、見たい情報のフィルタリングは、いまだ試行錯誤の状況である。 これは有害情報や迷惑メールに比べて「良い情報」の定義が難しいからである。 最も単純なレベルでは、指定されたキーワードを含む情報を提示するというものがある。 たとえば、google news のカスタマイズ機能により、 こうした機能を実現することが可能である。このようなカスタマイズ機能は、 ニュース記事をすべて見るのに比べればはるかに有用ではあるものの、 経験上、精度自体はさほど高いものではない。指定キーワードの有無だけでは 限界があるのであろう。 また、amazon 等のショッピングサイトでは、「この商品を買った人が購入した もの」が表示される。これはソーシャルフィルタリングと呼ばれる方法である。 筆者自身はこの機能を相当活用していて、かなりこれで amazon に貢献しているのだが、 一般的には多くの人が買っているから自分も欲しいとは限らないから、 有効ではあってもかなり暫定的な仮説に基づいているといえる。 また、個人の履歴やユーザが事前に定義したプロファイル情報に基づいて ユーザに推薦を行うものもある。 a9.com では、ユーザの検索履歴の内容に基づき、検索精度の向上を狙っている。 これらも、プロファイル情報の定義の難しさ、 履歴からいかに情報を抽出するかといった点で技術的な問題がまだ多くある。

好きと嫌いの双対性

さて、いずれにしても今日のような情報洪水においては、 必要な情報と不要な情報をフィルタリングすることは、 同じように重要である。 上で見たように、多少のレベルの差はあるにせよ、技術的要素はかなり共通している。 (ただし求めるレベルはかなり異なる)。

情報フィルタリングで考えるべき情報の分類とは 以下の表のようにまとめることができるだろう。

内容 求められる機能
見てはいけない情報 アクセスしてはならない情報。無意味な情報。
アダルト、暴力、薬物等の有害情報サイト、スパムメールなど。
情報を遮断する
見る必要のない情報 興味のないことが明らかな情報。
既に知っている情報や興味の対象外。
優先度を下げる
判断不能な情報 見る必要性が判断できない情報 ユーザの判断にゆだねる
見た方が良い情報 興味があると推定される情報。
自分自身の興味内容に近いニュース記事やウェブサイト
優先度を上げる
見なければいけない情報 仕事上必ず知らなければならない情報。
競合相手の動向、社内(学内)の連絡事項等
必ず見るように提示する

「見なければいけない情報」は「見てはいけない情報」の対極にある。たとえば、 社内ポータルの連絡事項や取引先や競合相手のプレスリリースなどである。 これらは、サイトのリストアップやキーワード指定などに手段により、 「見てはいけない情報」とほぼ同じ手段によって実現することができる。 また、「見る必要のない情報」は「見た方が良い情報」と双対である。 すなわち定義は明確ではないので、ユーザの過去の履歴からの学習手段が必要になる。 ユーザが興味を持つ情報は、 ユーザが興味を持たないであろう情報を抽出することによりさらに精度を向上させることができるし、 その逆も成り立つであろう。

一般に、情報フィルタリングシステムでは、上記の表の特定レベルの情報フィルタリング のみに着目しているものが多い。しかしながら、こうした双対性に着目することにより、 個人の情報アクセスの制御をより包括的に行うことができるのではないだろうか。 好きな情報を選べといわれたり、言葉で説明せよというのは難しいことがある。 こういうときは、嫌いな情報から攻めて見ると良い。「嫌いじゃない」 というのは時として「興味がある」ということを意味している。