メタ集合知に訊け!

現代は情報大爆発の時代だという。情報量があまりにも多くなりすぎて、巷に溢れる情報を上手に取捨選択して利用する能力が求められるようになった。爆発する情報の洪水を乗り切るための「情報大航海」プロジェクトも進められている。

情報大爆発に留まらず、もはや「情報パンデミック」という人もいる。パンデミックとは、感染症や伝染病が感染力の閾値を越えて世界的に流行することを表す言葉だ。確かにスパムメールの横行やコンピュータウィルスの蔓延に悩まされている現実に目を向けると、不謹慎かもしれないが情報パンデミックとは言い得て妙という気もする。

Web2.0時代の集合知

Web 2.0時代に突入してからというもの「集合知」や「群集の叡智」といったキーワードで様々な技術が語られるようになった。しかしその多くは最終的に個々の情報、ミクロの知識に収斂する方法論である。ページランクソーシャルブックマーク人力検索、○○検索、××検索、うんぬんかんぬん。これらの多くは、必要な正解情報をいかに効率的に見つけ出すかに焦点が当てられており、その過程において集合の知力を用いているにせよ、最後は「個」の情報にたどり着くことが目標だ。

本稿ではさらにその上位概念の説明を試みる。

情報大爆発の時代において、爆発する情報の世界を対象として新たな知の形態が考えられるようになった。個々の物理現象を個々にモデル化することで熱現象を解析した熱力学が検索エンジンの精度向上や順位付け技術に相当するとすれば、キーワードの出現頻度や統計的処理により母集団が持つ知の動向や流行を探索する技術は、物理現象をマクロにとらえ統計的な議論により全体像を分析する統計力学に相当するといえる。ここでは後者の例を示してみたい。

メタ集合知とは?

その昔、一部のネットワーカーたちの間で、「Googleジャンケン」という遊びが流行した。2008年の現時点においてGoogleで検索して確かめてみると、2001年暮れから2002年初めにかけて行われていた遊びだったことが分かった。Googleジャンケンとは次のような遊びである。関心空間に登録されているキーワード説明から引用する。

検索エンジンの「Google」を使ってどちらがヒット数が多いかを競うゲーム。
例えば、<鈴木さん>対<佐藤さん>
鈴木71万9000件対佐藤64万7000件で鈴木さんの勝ち!という具合。

ここで注目すべきは、このGoogleジャンケン、個々の検索結果にまったく触れていないことだ。検索結果のヒット数しか着目していないが、そこに新たな価値を見出している。これこそまさに集合の生み出した知識である。既存の集合知と区別するために、ここではこの新しい知見のことを「メタ集合知」と名付けよう。Googleジャンケンによる勝ち負けの判定は、もっとも基礎的な統計によるシンプルなものではあるが知の集合により新しい知見が生み出された結果、すなわちメタ集合知の産物といえる。

例題: 成分チェッカー

議論ばかりではつまらないので、メタ集合知の例題として簡単なアプリケーションを作ってみた。名付けて「成分チェッカー」。メタ集合知による新しい知識の創造を目指したAJAXアプリケーションである。なお類似のサービスで以前かなり流行したものに「脳内メーカー」「成分解析機」があるが、これらは乱数に基づくジョークツールである。対してこの「成分チェッカー」も半分冗談で作ったアプリケーションとはいえ、実際にインターネット上に拡散している客観的なデータに基づくものである点で脳内メーカーや成分解析機のような単なるジョークツールではないことを強調しておきたい。

さて、この「成分チェッカー」、使い方は簡単だ。下記のリンクをクリックして現れるウィンドウには、ふたつのフィールドが置かれている。最初のフィールドに調べたい対象を入力、次のフィールドにはその中に含まれていると思しき成分を入力して「チェック!」ボタンを押してみよう。検索エンジンがその比率を計算してくれる()。


「成分チェッカー」を試してみる
(サブウィンドウが開きます)

以下に「成分チェッカー」を実行してみた例を示す。もちろんこの結果は現実を直接反映したものではない。「インターネット上のデータを処理した結果こうなった」という、バーチャルなものであることには注意してほしい。

図1. 日本人もまだまだ捨てたもんじゃない?

図2. 本コラムの3回に1回は面白いらしい

図3. にちゃんねらーの3人に1人は…


ご注意:「成分チェッカー」と名付けましたが、単純に最初のフィールドを対象としてサーチしたヒット件数と両フィールドを対象としたANDサーチのヒット件数を比較しているだけであり、インターネット上の情報構成における割合を網羅したうえで包含比率を計算しているわけではありません。またそれぞれの件数は概数であり、値が上下することがあります。検索条件によっては、キーワードを追加して検索するふたつめの結果が最初の検索結果数を上回り、比率が100%を越えてしまうことがあります。なおGoogle
AJAX Search
APIを利用しているため、1日の実行回数に制限があります。うまく動作しないときは、日を改めてお試し下さい。本アプリケーションはFirefox
2.0とGoogle Chrome 0.2、Internet Explorer 6.0、Safari
3.1.2で動作を確認しました。このAPIを無償でご提供下さったGoogleに感謝いたします。