論文

査読有り
2024年7月20日

Recognition of target domain Japanese speech using language model replacement

EURASIP Journal on Audio, Speech, and Music Processing
  • Daiki Mori
  • ,
  • 太田 健吾
  • ,
  • 西村 良太
  • ,
  • Atsunori Ogawa
  • ,
  • 北岡 教英

Vol.2024
No.1
開始ページ
1
終了ページ
14
記述言語
英語
掲載種別
研究論文(学術雑誌)
DOI
10.1186/s13636-024-00360-8

ディープラーニングモデルで構成されるエンドツーエンド(E2E)自動音声認識(ASR)モデルは,単一のニューラルネットワークを使用してASRタスクを実行することができます.これらのモデルは,大量のデータを用いて学習させる必要があるが,ターゲットとする音声ドメインに一致する音声データを収集することは困難であるため,ターゲットドメインに完全に一致しない音声データが使用されることが多く,結果として性能が低下する.音声データに比べ,ドメイン内のテキストデータは入手が容易である.そのため,従来のASRシステムでは,言語モデルとHMMベースの音響モデルを別々に学習して使用している.しかし,E2E ASRモデルは,音響情報と言語情報の両方を統合的に学習するため,言語情報を分離することが困難であり,リーズナブルなコストで十分な認識性能を達成できる,特殊なターゲットドメイン用のE2E ASRモデルを作成することは非常に困難である.本論文では,ターゲットドメインへの適応を実現するために,事前学習されたE2E ASRモデル内の言語情報を置き換える手法を提案する.これは,ASRの訓練データを対数領域で書き起こして訓練したソースドメイン言語モデルを差し引くことで,ASRモデルに含まれる「暗黙の」言語情報を削除することで達成される.次に,対数領域での足し算によって,ターゲット領域の言語モデルを統合します.この引き算と足し算による言語モデルの置き換えは,ベイズの定理に基づいている.実験では,まず,自然言語日本語コーパス(CSJ)の2つのデータセットを用いて,本手法の有効性を評価した.次に,新聞記事音声コーパス(JNAS)と自然発話コーパス(CSJ)を用いて,それぞれ読み上げ音声と自然発話音声のデータを用いて,2つの言語領域のギャップを埋める提案手法の有効性を検証した.その結果,我々の提案する言語モデル置換手法は,JNASコーパスとCSJコーパスに比べて,ASR性能が向上することが示された.

リンク情報
DOI
https://doi.org/10.1186/s13636-024-00360-8
URL
https://web.db.tokushima-u.ac.jp/cgi-bin/edb_browse?EID=412238
ID情報
  • DOI : 10.1186/s13636-024-00360-8
  • ISSN : 1687-4714

エクスポート
BibTeX RIS