2020年11月23日
End-to-end recognition of streaming Japanese speech using CTC and local attention
APSIPA Transactions on Signal and Information Processing
- ,
- ,
- 巻
- Vol.9
- 号
- No.e25
- 開始ページ
- 1
- 終了ページ
- 7
- 記述言語
- 英語
- 掲載種別
- 研究論文(学術雑誌)
- DOI
- 10.1017/ATSIP.2020.23
現在の音声認識アプローチのほとんどは双方向ネットワークとシーケンス間のモデリングに基づいているため,このような技術を用いた自動音声認識(ASR)システムは,データの処理を開始する前に音声入力のセグメント全体が入力されるのを待つ必要があり,結果として長いタイムラグが発生し,アプリケーションによっては深刻な欠点となることがある.この問題に対する明白な解決策は,ストリーミングデータを処理できる音声認識アルゴリズムを開発することである.そこで,本論文では,コネクショニスト時間分類(CTC)基準を用いて学習された一方向性LSTMに基づくモデルを用いて,日本語のためのストリーミング・オンラインASRシステムの可能性を示す.ほとんどの日本語ASRシステムでは双方向性のネットワークが採用されているため,このようなアプローチは日本語での利用についてはあまり研究されていない.本研究で提案したシステムの実験評価では,文字誤り率9.87%という最良の結果が得られた.
- リンク情報
- ID情報
-
- DOI : 10.1017/ATSIP.2020.23
- ISSN : 2048-7703
- eISSN : 2048-7703