軽量・動的畳み込みを用いたend-to-end音声認識 - Yahoo! JAPANの研究開発

Publications

カンファレンス (国内) 軽量・動的畳み込みを用いたend-to-end音声認識

藤田悠哉, Aswin Shanmugam Subramanian*, 大町基, 渡部晋治* (* Johns Hopkins University)

日本音響学会2020年春季研究発表会 (音響学会)

2020.3.9

音声認識の研究領域では, 単一のニューラルネットワークで構成されるend-to-end(E2E)モデルが主流になりつつある. 特に, 機械翻訳で提案されたTransformerを用いたE2Eモデルは種々のタスクにおいて従来法を上回る精度を達成している. しかし, Transformerで用いられる自己注意(self-attention)ネットワークは,その計算量が入力系列長の自乗に比例するため,長い系列に対して計算時間とメモリを多く消費するという課題がある.この計算量を系列長に対して線形に抑えるべく,本稿では, 機械翻訳の分野で提案されている動的・軽量畳み込み構造を応用する.

音声処理