「ひぇぇ。うなぎだけも美味しい、卵だけでも美味しいのにうなぎが卵で巻いてあるやなんて・・・。」
筆者の好きな落語、「鴻池の犬」の1シーンである。感情たっぷりの声は一度聞いただけで耳に残ってしまい、食べたこともなかったう巻きが好物になってしまう。喋るのは一人でも、観客の反応を捉えた噺家の話術により、観客は一体感は持って話にのめり込んでいく。
落語に限らず歌や普段の会話など、音声は人間のコミュニケーションにもつ役割は大きく、文字にはない表現力を持っている。 そして、近年、スマートフォンなどのモバイルを始めとする端末で数多くの音声インターフェースが実現され、我々の生活のごく身近なところで音声認識・合成技術が活躍するようになった。その急速な広がりが実現したのは、一方的なコミュニケーションではなく人間味を感じさせ一体感をもたせるような会話が可能となりつつあるためではないだろうか。
花開く音声認識・合成技術
音声認識技術は1940年代のBell研究所の言語認識機器より始まり、以降米国を中心にN-gramモデルや隠れマルコフモデルなど基本技術の進化が続き様々なアプリケーションの開発が進んだ(詳細はIPA ニューヨークだよりなどのまとめをご参考されたい)。そして現在では様々な人の音声の認識が実現可能となり、各種マイニング技術と組み合わせることで膨大なデータの中からその言葉への返答にふさわしい回答を見つけることが可能となっている。
その応用範囲は広く、モバイル端末での利用やハンズフリーカーナビを用いた運転時や医療現場等あらゆる場面で、音声認識・合成技術を活用した音声インターフェースを備えた機器が投入されようとしており、その市場規模は急速に拡大している。その中でも米Nuance社は市場をリードしており、最近ではiPhone4Sの音声アシスタント機能Siriへの技術的貢献が知られる。その他にもフォード社の車載用音声制御システム「Sync」やIBMの人工知能「Watson」と連携し、医師の専門的な口頭質問に回答できるシステムを含む医療ソリューションが提案されるなどその活動の範囲は広い。
一方、日本では、大学研究機関等を中心にオープンソースソフトウェア汎用大語彙連続音声認識エンジンJuliusの研究開発が進められたほか、クリプトン・フューチャー・メディアのVOCALOID2がキャラクター性を持った音声合成を実現し反響を呼んだ。また2011年12月に公開された東京モーターショーでは、国内自動車メーカーも音声認識・合成技術を踏まえた会話型の車載情報管理システムが発表されている。
落語のオチは難しい?
上記のような研究の成果や次々と提案されるサービスにより我々はコンピュータにあたかも人間がいるかのようなサービスを期待できるようになりつつある。我々が享受できる利益は今のままでも十分大きいが、あえて落語という話術の粋と対比してみるとチャレンジングな課題が明瞭になってくる。
まず感情への対応が課題として挙げられる。感情たっぷりに話したり、相手の感情を読取り対応を変えるのは機械には非常に難しい。食べ物を食べることができないコンピュータが美味しいということを伝えるのは、たとえWeb上にその食べ物が美味しいというレビューがゴマンとあっても、文章の組み合わはもちろん言いぶりも工夫する必要があるだろう。感情の読取りに関しては、昨年末発表された人間の感情に応じた自動応対の仕方を変えるシステムが先行事例として挙げられるが、感情の異なる多数人相手の会話でどういった振る舞いをすべきかが難しい課題となる。
また文脈や状況に応じたウィットの効いた対応というのも、膨大なデータの中からの「平均的回答」を出すだけでは難しい。「平均的回答」だけ続けていても、時間が経てば人間は無味乾燥に感じてしまいやがて機械としか見なくなってしまう。これは現在の音声認識システムが普及した後の大きな課題となりうる。
落語のオチというのは予め決められている。しかし、そのオチを持ってくるにはその決められた枠組の中にも感情を込めたりウィットを効かすことで面白さを提供している。決められた文脈を話すことでもその音声上の工夫によって人間らしさを表現することは十分可能だ。これからは、感情を読み取る・込めるといった部分にも技術の進展が望まれる。
人間に親和性の高いインターフェースは、人間らしさの有る無しの差が明確に現れやすいのではないだろうか。音声認識システムの充実が図られ人間臭い話し方のコンピュータ落語が実現されることを期待したい。