機械が言葉を理解する日のために

ノートパソコンを会議に持っていき、会議進行と同時に議事録を作成している光景を、昨今しばしば目にするようになった。最近は私も、会議室にノートパソコンを持ち込むことがある。会議が終わったあとで、なぐり書きのメモを見ながら議事録を作る、そんな今までの作業に比べ、確かにずいぶんと効率が上がったように思う。

そもそも、議事録作りはけっこう面倒な作業である。ここはひとつ全て機械にやってもらいたくなるのが人情というもの。会議が終わると自動的に議事録文書が出来上がっている、なんてことが、はたして実現可能だろうか。今回は、議事録自動作成システムに必要な技術を検証してみよう。

基本機能〜自然な音声認識〜

まず、言わずもがな、だが、基本的な音声認識の精度が高くなくては話にならない。それも、マイクを意識させないごく自然なインタフェースで、との条件付きで。

現在、NEC のSmartVoice や、IBMのViaVoice、東芝音声システムといった音声認識関連ソフトウェアが商品として現れはじめた。あるいはノキアのヨベバやNECのボイスサーチのように、音声呼び出し機能が携帯電話に内蔵されるなど、音声認識はずいぶんと身近なものになってきている。ただしこれらは主に、接話型の音声入力を仮定していることが特徴だ。電話の場合はそれでもあまり問題ない。しかし、一般の機器を想定した音声入力のインタフェースには、非接話型マイクロホンを使うことが望ましい。

接話型マイクロホンを利用する理由は、主に次の理由による。すなわち、接話型だとマイクの周辺の音だけを拾うので、周囲の雑音の影響を受けにくいからだ。ということは、雑音の少ない会議室は非接話型の音声入力技術を活かす、うってつけの舞台といえよう。非接話型マイクを使いながら音声入力の精度を向上させる技術のひとつに、複数個のマイクを並べて音源を特定する、マイクロホンアレーと呼ばれる技術がある。

分散処理か集中処理か

では議事録作成システムの構想に戻ろう。会議というからにはやはり複数人の発言を処理できなければいけない。ここで、各個人の発言を個別に文書化処理するのか、あるいは集中して処理を行なうのか、ふたつの立場から考えてみたい。

まず、個々の聞き分けはできている、あるいは比較的指向性の高いマイクを使い個人ごとの音声入力が実現されているケース。個別に文書化処理を行なう場合、それらの処理系を協調させる並列/分散処理環境が必要となる。発言者ごとに割り当てられたコンピュータが並列に処理を行なう。それを議事録として文書を纏めるには、当然、各処理システムの協調作業が重要だ。

一方、昨今のCPUの圧倒的な計算パワーにものを言わせ、各発言者の音声を集中して処理することも考えられる。この場合、発言者の聞き分けのための話者認識や、同時に複数の人間が喋ったときの話者分離技術が必要となる。人間の聴力には、複数人の会話から自分に必要な情報を聞き分ける能力があるという(これを、カクテルパーティ効果と呼ぶ)。この現象のメカニズムはまだ十分に解明されていないが、雑踏の中での音声認識や、複数話者の音声認識などへの応用が期待されている。

人工知能の領域へ

さて、音声認識の処理システムはうまく組み上がり、会議参加者の発声はすべてコンピュータに取り込まれるようになったとする。どんな会議であれ、発言を羅列しただけの記録はそのままでは読みづらい。人間は、意外と不必要な言葉を発声しているもので、「えー」だの「あの」だの意味のない言葉を喋っているものだ。と思えば主語を省略してみたり、極端な話、「そう、それ」だけで意思の疎通ができてしまうケースもある。

一方、アウトプットである議事録は体裁よく整えられた文章である。無意味な言葉の混じった発言記録から有用な情報を取り出し、意味のある議事録としてまとめあげるには、文章要約機能が欠かせない。

「あの」など不要なノイズを除去し、必要ならば省略された言葉を補う。その上で構文解析と意味解析を行ない、重要な情報の取捨選択をする。結論や申し送り事項など特記事項を分析し、最後に体裁を整えて議事録を出力。話し言葉から書き言葉への変換も必要だ。ここまでくると、もはや人工知能研究の範囲である。

議事録の自動作成を題材に、必要となる情報技術を俯瞰してみた。ごく単純な作業と思えることですら、様々な分野における最高の技術を上手に組合わせないと、全体として正しく動作しない。コンピュータが現在の生活に広く浸透し、高度な進化を遂げたように見える情報技術だが、研究開発の余地はまだ広い。

本文中のリンク・関連リンク：

NEC のSmartVoice：認識用のヘッドセットマイクがパッケージに含まれている。
ジャストシステムの Voice一太郎9：音声認識エンジンに IBM の ViaVoice を利用している。
東芝が提供している東芝音声システム。
ノキアのヨベバ：ボタンを押して、登録しておいた名前を呼ぶだけ。
NEC のボイスサーチ：ヨベバと同様の機能。この他にも各社が類似の機能を提供している。
NTT によるマイクロホンアレーの解説：まさしく会議での音声収録をイメージした説明だ。
1999年3月現在、PC用で最も強力なプロセッサ Pentium III Xeon
オンライン実験「聖徳太子に挑戦」では、カクテルパーティ効果を実際に経験することができる ?
MS Word 97 には、文章要約機能が備えられている。

基本機能 〜自然な音声認識〜

分散処理か集中処理か

人工知能の領域へ

本文中のリンク・関連リンク：

基本機能〜自然な音声認識〜