複数の話題言語モデルによる音声認識結果の事後統合 - Yahoo! JAPANの研究開発

Publications

カンファレンス (国内) 複数の話題言語モデルによる音声認識結果の事後統合

日本音響学会2008年秋季研究発表会

2008.9.1

Web上の音声情報に内容索引を付与するためには，さまざまな話題に関する音声を認識できる必要がある．またシステムを再構築することなく話題の追加や削除が可能で，さらに分散計算環境への適合性が高い，スケーラブルな音声認識方式が望ましい．複数の話題に対応する音声認識方式として，汎用言語モデルを用いてデコードした結果から，話題混合比率を推定して言語モデルを話題適応化する方式が提案されている．しかし，これらの方式では汎用言語モデルによって精度が制約される点と，スケーラビリティが低い点が課題と考えられる．我々は複数の話題言語モデルを用意して，それぞれ独立にデコード処理を行い，得られた仮説を統合して，最終的な認識結果を出力するアプローチについて検討を進めている．認識処理の初期段階における話題判別を避けることにより，判別誤りに起因する精度劣化を抑えられることが期待できる．また全体を再構築することなく，話題の追加や削除が可能で，分散計算処理への親和性も高い．本稿では尤度基準による仮説選択に加えて，キャッシュモデルによるリスコアリングや，Web検索による仮説検証，などを組み合わせて精度改善を試みた結果を報告する．

音声処理