実用化に進む音声認識よる会議録作成

音声認識技術及び議事録作成支援周辺システムの実用化とともに、 音声認識による会議録作成支援システムの導入が進みそうである。

不特定話者の認識と校閲支援がキー

音声認識技術の実用化とともに、北海道議会(導入済み)や衆議院(計画中)などの議会を中心として 会議録作成システムの導入が検討されている。 ここでいう音声認識とは、会話を文章に変換する技術を指す。 音声認識といえば、身近なものとして、かつてPCにプリインストールされていた IBM社のVia Voiceに代表されるように、まず、認識させる人が、 いくつかの決められた文章を読むこと(エンロールという)により、 音声認識ソフトが、その声の特徴をパターン化した上で、 特定話者の音声を文章に変換するという技術が主流であった。 このような方式は、エンロールに際し話者に負担をかけるとともに、 毎回、参加者が変わるような会議の会議録作成には使えない。

これが、最近の技術の進歩により、特定話者の声の登録なしに、不特定話者の音声を認識できるようになった。 これにより、会議録といった不特定の話者に対する音声認識が可能となったのである。 上記、北海道議会の例では、会議の形態(本会議か委員会か)による話し方の相違にもよるが、 平均認識率(=音声から文章への変換)80%程度という。 速記者の文章化の精度が100%に近いことを考えると、 80%という数字は必ずしも高いとはいえず、 あとの20%は、校閲により、人手で文章を修正する必要があるが、 それでも、全体としては、従来の方法よりかなり業務効率化を図ることができるという。

認識精度を補完する校閲システム

音声認識の認識率を上げるために、必要不可欠なのが、発音から文章(語句)への変換のための辞書 及び構文解析や意味解析により、音声と文脈と語彙をうまくマッチングさせる技術である。 例えば、一言で会議といっても、どのような分野の会議かにより、 そこで交わされる言葉、語彙、文脈は、違ってくる。 例えば、旅行業務の行き先の音声入力といった、目的(回答)のはっきりした業務であれば、 ルールや語彙が限られるためより精度は高くなる。 会議の種類に合わせて、予め音声認識用の辞書及び上位に変換される確率(ルール)を整備しておくことにより 音声認識率を向上することが可能である。 実用化を進めるメーカがこのようなサービス体制を強化してきたことも、 会議録作成支援システムを推し進める理由となっているようだ。

音声認識に基づく議事録作成支援システムは、 校閲により、人手で文章を修正する過程も、システムにより効率よく行えるような 仕組み(ツール)を備えている。 これは、会議の後で、実際の音声を音程を変えず、ゆっくりと明瞭な音声で聞きながら 音声認識システムが文章化したご認識を含む文章を編集するシステムである。 これにより、速記者より劣る精度の議事録原稿であっても 全作業工程は、従来に比べ、効率的に業務を遂行することを可能としている。

熟練工から普通人へ

速記者など人の能力は、総合力として、現在のIT技術により遥かに優れていることは疑う余地がない。 一方、財政改革の波の一環でもあり、団塊世代の退職に伴うノウハウの移転の問題もあり、 現在は、世の中全体として、いろいろなところで、熟達者のノウハウを何か別の方法で補う必要性が生じている。 これは、IT技術が各分野で実用化が進んでいることともマッチして、そのような流れとなっているのであろう。 音声認識による議事録作成”支援”の試みも、熟達者のノウハウに変わるものとして IT支援により、より普通の人が同じ業務をほぼ同等の効率で実現する例ということになる。

ワープロの普及により、和文タイピストがいなくなり、 音声応答システムの普及によりコールセンターの受付がいなくった。 今後もIT技術の実用化とともに同様な事象が、様々な分野で進んでいくことを予見させる。