ちょうど約一年前、 実用化に進む音声認識よる会議録作成(TakeITEasy2007.5.29) を掲載した。 その後、いくつかの議会で、音声認識による会議録作成支援システムが採用されつつある。
音声認識技術の現状
家庭用PCに添付されているような音声認識ソフトの音声認識技術は、話者が例文を何回か読み上げ、 ソフトに話者の発話特性を学習させてから使う特定話者を対象としたものである。 一方、会議録作成に採用されるような音声認識技術は、不特定の複数話者に対応する必要がある。 音声認識は、発話と言語を結びつける音響モデルと、確からしい言語を推定する言語モデル により、認識を実現するが、不特定話者を対象とした音声認識では、都度音響モデルを構築しながら 音声認識を行う。 これにより、特定話者用の音声認識より難易度が高い。
不特定話者を対象とした音声認識技術は、オープンソースの 連続音声認識ソフトウエア Julius(京都大学) などの登場により格段の進歩を遂げてきた。 音声認識率(正確には単語認識精度)とは、 (総語数−置換誤り数−脱落誤り数−挿入誤り数)/総語数×100 として定義されるが、 現在の技術で、特に動乱等のない平常な会議であれば、認識率平均80%程度は実現可能である。 ただし、音響モデルでも言語モデルでも精度が得られない場合もある。 「貯蓄から投資へ」を「地区から投資へ」と誤認識する場合などがそうであるが、 日本語の意味的には、後者でも即不正解とはいえない場合である。 また、会議の中で発話される「えー」「えーっと」などの非言語はフィラーとよばれるが、 これらは、会議録には載せないが、音声認識の過程でフィラーを除去することも、 かなりの確率で可能となっている。
一方、早口であったり、なまりの強い話者であったり、会議が動乱状態であるときには、 音声認識は、定常時より劣る。 また、同じ認識率80%であっても、簡易な文章の認識精度の善し悪しなどにより、 会議録作成者の印象は変わってくる。 また、音声認識精度は、一般的に、確からしい語句の探索空間が広いほど、精度が向上する。 一方、探索空間が広ければ、処理速度が遅くなる。 これらの兼ね合いをどうするか、また、特定の会議に頻出する固有名詞を予め辞書に登録するなどの 辞書のチューニング等が、実用化のポイントとなる。
如何に支援するか
音声認識技術は進歩しているが、100%の認識というのはありえない。 そもそも、人が会議録を起こす場合でも、経験が少なければ、 あるいは、当該分野に精通していなければ、誤認識ということも起こりえるし、 雑音から特定話者の内容を正確に聞き取るカクテルパーティ効果とか、 例え、聞き取りにくくても、意味的に補完する能力など、 人間の能力は、まだまだ音声認識技術を遙かに凌駕するものである。
音声認識率100%というのはありえないが、平常時の音声認識率80%程度というのは、会議録作成を効率化する上では、 実用的な水準になりつつある。 もちろん、これを如何に100%に近づけるかが、技術的な課題であるが、 一方で、100%はありえないことを考慮し、如何に編集・校正作業を支援することができるかが、 音声認識を用いた会議録作成の鍵になる。 基本的なところでは、認識結果テキストから認識対象音声を即座に再生できる機能や 音程を変えずに速度を変えながら音声を再生する機能等、確認を支援する機能の充実が必要である。 また、支援の一つとして、単語ごとの信頼度で色づけするとか、対象の認識精度のヒストグラムを表示する等が 考えられる。
情報共有と不断の努力
北海道議会をはじめとした、音声認識を用いた会議録作成支援の仕組みは、 まだ、はじまったばかりである。 いくつかの知見を共有しつつ、より効率の良いシステムとするためには、 情報共有の枠組みとシステム改善、モデルや辞書のチューニング等の 不断の努力が必要である。