顔は情報の宝庫 〜顔指向インタフェース〜

前回の私の記事で、 キーボードやマウスに続く第三の情報入力デバイスとして、 三次元ポインタの研究が盛んであることを紹介した (「雲を掴む話 〜3次元ユーザインタフェースの実現〜」 )。 今回はやや視点を変えて、 別のアプローチによる新たな情報入力装置の実現可能性を考えてみたい。

キーボードとマウスの限界

パソコンの普及で日本人もキーボードを叩く機会が増えた。 しかしキーボードに馴染めず苦労されている方も多いのではなかろうか。 とくに日本語(あるいは中国語や韓国語)の場合は、 かなり高精度になってきたとはいえ漢字変換の必要性が、 話をややこしくしている問題もある。

マウスの利用とGUIによる視覚的なインタフェースは、 「とっつきやすさ」の面ではかなり効果を上げているが、 一方で「マウスの操作を行なうために、 キーボードからいちいち手を離さなければならないのが煩わしい」 というへビーユーザの声も少なからず聞こえる。

また机上で操作するコンピュータにはキーボードやマウスによる情報入力が適していても、 組込みシステムのようにキーボードは適当でない場合もあるだろう。

顔情報の利用

キーボードやマウス、タッチパッド、トラックボールなどに共通する項目は、 いずれも手で操作するデバイス、ということだ。人間は、音声や身振り、 顔の表情など様々なメディアを利用してコミュニケーションを行なう。 これらのコミュニケーションに倣った新しい情報入力装置の研究開発は、 とても自然な発想である。

やはり音声認識や、手書き文字認識など、 言語情報の入力手段としての新たなユーザインタフェースは古くから研究されている。 しかし人間のコミュニケーションは言語に依らない部分も多い。 音声や文字の情報以外に、多くの情報を含むといえば、顔、すなわち表情だ。 顔の向きや視線といった、顔の部品を認識してユーザインタフェースに応用する研究も、 現在盛んに行なわれるようになっている。

ユーザはどこを見ている?

NTTの研究所で、 視線を計測してポインティングデバイスに応用しようとの研究が古くから行なわれている。 3月の6、7日に行なわれた インタラクション2002というシンポジウムでは、 視線インタラクション研究の最新の成果がデモンストレーションされていた。 そのシステムではまだ顔の位置を固定しなければならないとの制約があり、 この点は更なる改良が望まれるところ。 とはいえユーザが特殊な眼鏡をかけなければならないということもなく、 新しいユーザインタフェースとして非常に有望な技術といえるだろう。

被験者の見ている方向を計測したいというニーズは多い。 自動車のドライバーが運転中にどこを見ているか(安全性の確認)、 人間がものを認識するときはどのような箇所に着目するのか(認知心理学実験)、 ページのどの箇所をどの順序で読んでいくのか(ユーザビリティの検証)、 など様々なアプリケーションが考えられる。

顔情報インタフェースの難しさ

視線インタフェースや、 コンピュータが表情を取り扱うことに関する話題は以前でも本コラムで取り上げられている (「ニヤリと笑うコンピュータ」 「指も言葉もいらない−足踏みから脳波インタフェースまで−」 )。 いずれも2年以上前に執筆された記事だ。 そのころと比べてこの分野の技術はどれだけ進歩しただろうか?

画像認識をベースとしたユーザインタフェースの難しさは、 大量の画像情報を、実時間で処理、つまり可能な限り短時間で処理しなければならない、 という点にある。 ここ数年、CPUの計算能力が各段に向上したことにより、 実時間画像処理の可能性は飛躍的に高まってきた。 また画像情報の入力デバイスも、 従来のCCDカメラやCMOSセンサ自身の性能向上だけでなく、 人工網膜カメラモーションプロセッサビジョンセンサなど様々なものが現れてきている。

新しいセンサの融合と高性能CPUによる力業的な計算処理を組合せれば、 ユーザの表情を読み取ることも、 いや顔色からその日の体調すら判断できるインタフェースも実現するかもしれない。 健康管理をしてくれる洗面台、などというのはどうだろうか。 でも朝起きて髭を剃っているときに「お疲れですね、ダンナ」 と声をかけてくる洗面台というのも、ちょっと鬱陶しいかな?