未だ遠し? 音声コミュニケーション

この4月9日から3日間、 ATR音声言語通信研究所において、ハンズフリー音声通話に関する国際研究会 (HSC2001, International Workshop of Hands-Free Speech Communication )が開催された。音声認識技術、とくに非接触型のマイクを利用する音声コミュニケーション、さらにはそれらを応用した研究を進めている世界中の研究者が一堂に会した初めての会議である。

3日間のセッションを通じ、この分野における第一線の研究者らが活発な意見交換を行なった。今回は本ワークショップで報告された現状を踏まえて、機械との音声コミュニケーションの実際について少々考えてみたい。

機械は言葉を理解しはじめた、か?

音声認識の技術レベルはもう既に完成されたものだろうか。 ViaVoice など、PC用の音声認識ソフトウェアは既に市販されている。携帯電話には音声ダイアル機能が盛り込まれている機種もいくつか存在する。あるいは電話口から音声で予約などを受け付けるシステムも、機能限定ながら実用段階に入りつつある。

一方で音声認識技術にはまだまだ期待できない、という声もある。音声認識ソフトを買って試してはみたものの、使い勝手が悪くガッカリしたユーザもいることだろう。半年ほど前になるが ZDnet で「『夢の音声認識』は今どこにある?」と題する興味深い記事が掲載された。その記事によれば、 PCでの実現はまだこれからだが強力なサーバに搭載した音声認識エンジンを ERPなどでうまく使えば十分ビジネスになる、としている。デスクトップでの汎用的な音声認識を切捨て特定分野にターゲットを絞ることは、技術的にも認識候補の範囲を狭めてさらに認識精度を上げることができるので、都合がよい。これらの分析はしごくもっともな帰結といえる。

特定環境下へのアプローチ

ただし実用化の期待が持たれている音声認識アプリケーションには、共通する条件がひとつある。それは接話型のマイクによる音声入力を仮定している、ということだ。音声認識に周囲の雑音は天敵で、少しでもマイクが口から離れるとS/N比 (音声とノイズの割合)が極端に低下するからである。

人間と機械の音声通話を考えたとき、マイクの存在はできれば隠れていたほうが自然な会話となるだろう。いちいちマイクを口に持っていかなければならないことが煩わしく感じることもあるに違いない。あるいは接話型のマイクが利用できない状況もあるかもしれない。

遠くのマイクで音声だけを拾うための技術がマイクロホンアレーである。 HSC2001でも様々なマイクロホンアレー応用技術が紹介された。なかでも目立ったのが、自動車車内での音声認識応用研究で、いくつもの研究結果が報告されていた。カーナビや自動車電話などの運転中の機器操作、あるいはそれらの機器との情報流通に音声は格好の媒体といえる。なにしろドライバーは手足や視線をむやみに逸らすわけにいかないのだから。

さらに車内は騒音の宝庫である。エンジンの騒音、ロードノイズ、風切音、カーステレオのBGMや周囲の交通雑音など、枚挙にいとまがない。一般に速度が上がるほどやかましくなり、その中から必要な音声を的確に拾い上げるのはなかなか困難な課題だ。

議事録自動作成システム

さて2年ほど前の本稿で、「機械が言葉を理解する日のために」と題して、議事録自動作成システムにはどのような要素技術が必要かを考えた。ざっと読み返してみると当時から状況はあまり変わっていないようにも思えるが、今回のワークショップで議事録システムのプロトタイプが報告されていたので紹介しよう。

カーネギー・メロン大学の開発したミーティング・ブラウザは、簡単な議事録を自動的に作成することができるシステムである。このシステムでは、音声入力だけでなく会議のビデオ画像も利用して発言者を特定する。テーブルの中央にはパノラマビデオカメラが設置されており、参加者の顔を認識することで話者を特定するのだ。英語なので漢字変換の問題が要らないとはいえ、画期的なシステムといえよう。

このように、いくつかの事例ではだいぶ実用化が見えてきたものの、人間と機械との音声コミュニケーションにはまだまだ険しい道程が残されており、研究の余地は十分にある、と判断せざるを得ない。先に述べた応用だけでなく、自動翻訳、口述筆記、教育分野、介護福祉分野、セキュリティ分野など、ハンズフリー音声認識技術には、様々な応用アプリケーションが考えられる。今後の研究成果が待たれる技術分野のひとつといえるだろう。

本文中のリンク・関連リンク：

ATR音声言語通信研究所
ハンズフリー音声通話に関する国際研究会 International Workshop of Hands-Free Speech Communication (英語)
NTTデータ： VOISTAGE(ボイステージ) 電話口から音声で予約などを受け付けるシステムの事例が紹介されている。
カーネギー・メロン大学の開発したミーティング・ブラウザ(英語)。発言者と発言内容が自動的に記録される。