機械と対話する〜マルチモーダルインタフェース〜

近ごろ、駅のホームや電車の中で携帯電話とにらめっこをしている人をしばしば見かけるようになった。 「あれは何をしているのだ?」と携帯電話を持つ同僚に尋ねてみたところ 「電子メールの読み書きをしているんだろうよ」とのこと。 携帯情報端末を持たない私には(※)やや理解しがたい行為なのだが、 iモードの爆発的な普及をまのあたりにすると、 自分がどんどん時代遅れの人間になっていく気がしないでもない。

※ 1999年3月2日のコラム 「モバイルツールは本当に必要か」にその秘密がある。

人間と機械の対話

唐突だが、まずは機械を操作するという行為を客観的に見つめなおしてみよう。 つまり、人間を中心としてみた「機械を操作する」というアクションを 「人間と機械とのコミュニケーション」としてとらえてみよう、との考え方である。

例を挙げよう。

例えば電気炊飯器。人間側の入力は、研いだ米、適量の水、 それと「今から炊け」という指示の3つである。 場合によっては最後の指示が「タイマーを使って明日の朝、 炊き上がっているようにしろ」かもしれないけれど。 それに対する炊飯器の応えが「炊き上がりました」 というランプの点灯とほっかほかのご飯、というわけだ。

炊飯器よりもう少し分かりやすい例を挙げると、車の運転はどうだろうか。 ドライバーは、エンジンの回転数、水温、スピード、 ハンドルから伝わる路面情報など、様々な情報を車から読みとる。 そして、アクセルを踏み込む、ブレーキを踏む、ギアチェンジを行なう、 ハンドルを回す、などの様々な操作を行なって車に指示を出す。 ドライブはまさに車との対話といえる。

コミュニケーションの妥協点

ここで話をむりやり情報技術に戻すというわけでもないが、 電話、FAX、パソコンなど情報機器の操作を考えてみよう。 これらの機器が扱う対象は「情報」なので、 機械とのコミュニケーションも実感できるのではなかろうか。

さてコミュニケーションというからには、 意志の疎通を図るためにお互いの意志の表現を決めておく必要がある。 ここでどのレベルに妥協点を求めるかが重要となってくる。すなわち、 人間が機械の都合に迎合するのか、機械が人間の都合に合わせるようにするのか。 インタフェースの切口をどこに置くかの妥協点である。

冒頭で述べた携帯電話や携帯情報機器での情報入出力操作は、 人間が機械の都合に合わせて情報を操作する端的な例である。 携帯電話での電子メールのやりとりだけでなく、 キーボードを使ったタッチタイピングの達人や、 ひとむかし前に流行った「暗号のようなポケベルのメッセージ」 なども同様だ。

マルチモーダルとは

では機械と人間のコミュニケーションにおいて、 機械が人間の都合に合わせるようにするにはどうしたらよいだろうか。 その答えの一つとして研究されているインタフェース技術が、 マルチモーダルインタフェースと呼ばれる技術だ。 「マルチモーダル(multimodal)」とは 「複数の(multi)」「様式の(modal)」という意味で、 マルチモーダルインタフェースとは複数のメディアを用いたインタフェースを指す。 通常は音声信号(音響信号)とビデオ信号(映像信号) を組み合わせたインタフェースを指すことが多い。

簡単な例では、音声入力に加えて画像入力によるユーザ状態の監視を組合せ、 画面を見ているときだけ音声による入力を許すインタフェースがある。 この音声インタフェースを利用すれば必要な情報だけが音声で入力され、 よそに向かって世間話をしているときは無駄な入力が行なわれないようになる。

ところでマルチモーダルインタフェースを実現するには、 音声と画像情報を機械的に組み合わせるだけでは不十分である。 どの音声とどの映像が同期するか、誰が発声した言葉なのか、 その言葉は何なのか、誰に向けて喋っているのか、 そのような様々な判断を下す必要がある。 平たくいえば「会話のコントロール」を実現してこそ、 マルチモーダルインタフェースが真価を発揮する。

マルチモーダルの必然性

人間の情報処理能力は非常に優れているので、 携帯電話の例が示すように、人間が機械の都合におもねる傾向にある。 人間と機械が一対一の関係にある場合はそれでも構わないことも多い。 ところが人間側が二人以上になると、マルチモーダル技術が必須となる。何故か。 それは、情報の流れの制御が必要になるからである。

複数の人間と機械がコミュニケーションを行なう場合、 人対人の対話、人と機械の対話、また別の人と機械の対話、 というように様々な情報の流れができる。 対話の流れを掴んでおかないと、とんちんかんな受け答えになりかねない。 そこで機械が情報の流れを認識するための手段が必要になる。 それを可能にする技術がマルチモーダルインタフェースだ。

ワープロやパソコンを使うようになって漢字が書けなくなった、 と嘆く言葉をしばしば耳にする。機械が社会に浸透して便利になる一方で、 人間が機械に支配されやしないかとの懸念を払拭しきれない面もある。 銀河鉄道999のラストシーン、 主人公の鉄郎は機械の歯車になることを拒んだ。 はたして機械は人類とうまくつき合っていくことができるだろうか。