End-to-end recognition of streaming Japanese speech using CTC and local attention

APSIPA Transactions on Signal and Information Processing

陳家浩
西村良太
北岡教英

巻: Vol.9
号: No.e25
開始ページ: 1
終了ページ: 7
記述言語: 英語
掲載種別: 研究論文（学術雑誌）
DOI: 10.1017/ATSIP.2020.23

現在の音声認識アプローチのほとんどは双方向ネットワークとシーケンス間のモデリングに基づいているため，このような技術を用いた自動音声認識(ASR)システムは，データの処理を開始する前に音声入力のセグメント全体が入力されるのを待つ必要があり，結果として長いタイムラグが発生し，アプリケーションによっては深刻な欠点となることがある．この問題に対する明白な解決策は，ストリーミングデータを処理できる音声認識アルゴリズムを開発することである．そこで，本論文では，コネクショニスト時間分類(CTC)基準を用いて学習された一方向性LSTMに基づくモデルを用いて，日本語のためのストリーミング・オンラインASRシステムの可能性を示す．ほとんどの日本語ASRシステムでは双方向性のネットワークが採用されているため，このようなアプローチは日本語での利用についてはあまり研究されていない．本研究で提案したシステムの実験評価では，文字誤り率9.87%という最良の結果が得られた．

リンク情報

DOI: https://doi.org/10.1017/ATSIP.2020.23
URL: https://repo.lib.tokushima-u.ac.jp/ja/115877
URL: https://web.db.tokushima-u.ac.jp/cgi-bin/edb_browse?EID=372885

ID情報

DOI : 10.1017/ATSIP.2020.23
ISSN : 2048-7703
eISSN : 2048-7703

エクスポート: BibTeX RIS

西村良太

論文

End-to-end recognition of streaming Japanese speech using CTC and local attention

メニュー

共著者の一覧

フォロー一覧