人物認識の3つのステージ

カメラが捕らえた画像を解析し映っている人物の情報を自動的に認識する、 そのような技術の実現が様々な分野で求められている。 ニーズの多さに対応するように画像認識でもとくに顔認識研究に携わる研究者は多く、 これまでに数多くの研究開発が行なわれてきた。

ところでひとくちに顔あるいは人物の認識といえども、 その要求レベルと実現のための技術には様々な段階がある。 本稿ではこれを三段階に分け、実現可能性と想定される応用対象を考えてみよう。

レベル1: 人物の抽出

まずは映像中に人物が含まれるかどうかを判定し、 その動作を追跡するような機能のレベルである。

このような機能は監視カメラなどで求められる。 常に映像を解析し、 映像中に人物が登場したときの対応が必要となるアプリケーションで利用される。

人物に特定しない移動物体の検出と追跡のアルゴリズムは数多く開発されており、 まずそれらを適用することが考えられる。 さらにそれらに加えて、 例えば映像中の肌色領域を検出するなど人間に関係のある特徴量の抽出を適用することで、 認識率を高める試みがなされている。

現在このレベルの技術のいくつかは実用化フェーズに到達しつつある。 通常のセキュリティ装置だけでなく、 店舗やイベント会場入り口での入場者の計測、 歩行者の交通量調査、 商店内における買物客の滞在動向調査、などへの応用が考えられている。

レベル2: 人物の分別

上記の技術で映像中から人物の情報を切出すことができたとする。 次に要求される段階は個々の人物を分別して特定することだ。

人物の特定はパターン認識の問題になる。 切出された人物の特徴、すなわち顔のデータ (場合によっては対象が指紋や掌紋、 虹彩などであったりもするがこれらは本稿での取扱いの範囲外とする) の持つ特徴量をいかに上手に利用して認識を行なうかがポイントとなる。 顔の特定に関しては 「固有顔」と呼ばれる技術が利用されることが多い。

このレベルの技術は、 人物を特定するセキュリティ装置としての顔認証による入退室管理や、 装置のロックと解除、 映像から人物を抽出する装置などへの応用が研究されている。 技術の実用化もちらほら見えてきてはいるが、 本格的な普及にはまだしばらく時間がかかりそうだ。

レベル3: 表情の理解

人物が認識できて、個人も特定できたとする。 その次に求められるレベルは、個人の状態の認識である。 本コラムでも何回か取り上げたことのある視線入力は代表的なもののひとつ。 より複雑なものとしては、表情の理解がある。

人間の顔画像から表情を特定する研究もいくつか行なわれており、 多くは顔を構成する目や鼻、口、 眉などのパーツの位置関係や形状を認識することで表情を推察する方式を試みている。 もっとも 笑いながら怒る人 などもいるので一筋縄ではいかない。 そのあたりの匙加減が難しいところである。

表情を理解する技術の応用としては、 円滑なコミュニケーションを促進するエージェントの研究や、 ロボットへの適用が考えられている。 あと10年もしたら表情を理解するロボットが登場するのではないだろうか。

認識技術の「使える」フィードバックを

このように表情の理解から感情の理解、人と機械とのコミュニケーション技術へと夢は広がるが、 残念ながら現実の技術はまだそこまで達していない。 しかしドラえもんの実現を目標に研究開発が進められているなど、 この分野はいまとても熱い研究分野である。 人間の感情を理解する最終ステージも意外と近いうちにクリアされるかもしれない。

以上、人物認識に関して三段階の研究開発レベルを示した。 上記の三段階では表情の理解がもっとも難しい課題となっており、 その応用分野としても楽しいものが想定されているが、 人物を抽出するだけでも使い方によっては有意義な技術である。 技術開発においてはいたずらに夢を追いかけるだけでなく、 技術の実用化に向けて着実な研究開発を進めることも大切だ、 という認識も忘れないでほしいところである。