Natalが導く姿勢推定技術の未来

Microsoft Xboxの人の動作と音声を認識するモーションコントローラ「Natal」が今年発売される。 Natalは従来の手に持つコントローラが不要な新しいユーザインタフェースであり、RGBカメラと距離センサ、マイクロフォンにより人の姿勢を推定し入力とする。 また、最近では、手の動きによるジェスチャーを入力とするユーザインタフェースが再び注目を集めている。 今回、手によるジェスチャー、はたまた人物の姿勢そのものを入力とするインタフェースが一気に普及するきっかけとなるだろうか。

ジェスチャーによる非接触型ユーザインタフェース

現時点で発表されている情報によると、Natalにはカメラと距離画像センサが用いられており、それらのセンサを用いて人の姿勢を認識するようだ。 人は何も持たずに、テレビの下に設置したセンサの前で動くだけでそれがそのまま入力となるという、アクションゲームの好きな人にはたまらないコントローラである。Natalでは31の人体パーツで人の姿勢を推定し、さらに複数の人物がいたり、照明が暗めであったりと従来の認識処理では難しかった状況にも対応するという。

手のジェスチャーによるユーザインタフェースも2008年、2009年のCEATECで日立東芝から発表され、注目を集めている。ジェスチャーによるインタフェースは、MITメディアラボ監修のハリウッド映画「マイノリティレポート」に登場する、手のジャスチャーにより次々と画面を動かすようなシーンが近未来の世界として表現されたことから始まり、その後のMITメディアラボのスピンオフ企業であるOblong社の映画同様のシステムであるg-speak等が注目されてきた。しかしながら、これらのシステムはトラッカーを手につける必要があったり、複数のカメラを設置する必要があり、応用範囲も限られていた。一方、日立や東芝から発表されたユーザインタフェースはセンサを一箇所に置くだけで、手に何もつけることなしにジェスチャーを認識し、入力とするものである。

距離画像センサの低コスト化なるか

これらの製品でそのような処理が可能となった大きな要因は距離画像センサの採用にある。 距離画像センサとは、赤外線を用いて対象物への距離画像を得ることができるセンサである。 今まで、人の姿勢の推定には、カメラのみを用いた画像処理により推定する手法が主流だった。 しかしながら、この手法ではスタジオのような特定の状況では成功しても実際の環境では照明や色の問題があり、なかなか広い範囲での実用化には至っていなかった。 そこに、近年そのような問題を解決する距離画像センサの開発が進み、比較的安価になってきたことにより、距離画像センサを用いた推定手法が注目されてきたのである。 距離画像センサは検知対象の背景や照明の明るさなどに影響されないといった特徴や、奥行きを取得するため人のシルエットを容易に抽出できるという特徴があり、姿勢推定に大変有用であると考えられている。

とはいえ、安価になってきたものの、まだまだカメラ等のセンサに比べるとはるかに高い。 実際に手のジェスチャーによるリモコンの実用化には未だコストの問題が残っているという。 しかし、Microsoftはこのコントローラを50ドル程度で販売するとも予想されているから、ソフトで収益をあげるモデルとはいえ、大幅なセンサの低コスト化に成功したことになる。 実際に、Natalのような距離画像センサを利用する製品が普及し、センサの需要が高まれば、大量生産によりさらに価格が下がり、ジャスチャーや姿勢の認識技術が実用化される時代が見えてくる。

姿勢推定技術をビジネスへ

非接触の姿勢認識が本当に普及すれば、ゲームやテレビへの入力装置としてだけでなく多くの適用先が考えられる。 マーケティングにおいては、人の姿勢がわかることでより適切な商品配置や広告配置が可能になるだろう。 また、確立された広告効果測定指標のないデジタルサイネージの一つの指標とすることもできるだろう。 Natalが成功するのならば、Natal同様のカメラと距離画像センサをデジタルサイネージ端末に設置するのに多くのコストはかからないはずである。 他にも、姿勢を得ることができれば、駅や学校等の公共空間に設置して異常行動を自動で検知したり、将来はロボット等の視覚として使うことも十分考えられる。

近年では先に一般向けに成功した技術がビジネスに転用されるというものも多い。 Natalがヒットすれば、姿勢を入力とした非接触型のユーザインタフェース、あるいは姿勢推定技術自体がセンサの低コスト化に伴ない、花開く時代がやってくるかもしれない。