2024年7月20日
Recognition of target domain Japanese speech using language model replacement
EURASIP Journal on Audio, Speech, and Music Processing
- ,
- ,
- ,
- ,
- 巻
- Vol.2024
- 号
- No.1
- 開始ページ
- 1
- 終了ページ
- 14
- 記述言語
- 英語
- 掲載種別
- 研究論文(学術雑誌)
- DOI
- 10.1186/s13636-024-00360-8
ディープラーニングモデルで構成されるエンドツーエンド(E2E)自動音声認識(ASR)モデルは,単一のニューラルネットワークを使用してASRタスクを実行することができます.これらのモデルは,大量のデータを用いて学習させる必要があるが,ターゲットとする音声ドメインに一致する音声データを収集することは困難であるため,ターゲットドメインに完全に一致しない音声データが使用されることが多く,結果として性能が低下する.音声データに比べ,ドメイン内のテキストデータは入手が容易である.そのため,従来のASRシステムでは,言語モデルとHMMベースの音響モデルを別々に学習して使用している.しかし,E2E ASRモデルは,音響情報と言語情報の両方を統合的に学習するため,言語情報を分離することが困難であり,リーズナブルなコストで十分な認識性能を達成できる,特殊なターゲットドメイン用のE2E ASRモデルを作成することは非常に困難である.本論文では,ターゲットドメインへの適応を実現するために,事前学習されたE2E ASRモデル内の言語情報を置き換える手法を提案する.これは,ASRの訓練データを対数領域で書き起こして訓練したソースドメイン言語モデルを差し引くことで,ASRモデルに含まれる「暗黙の」言語情報を削除することで達成される.次に,対数領域での足し算によって,ターゲット領域の言語モデルを統合します.この引き算と足し算による言語モデルの置き換えは,ベイズの定理に基づいている.実験では,まず,自然言語日本語コーパス(CSJ)の2つのデータセットを用いて,本手法の有効性を評価した.次に,新聞記事音声コーパス(JNAS)と自然発話コーパス(CSJ)を用いて,それぞれ読み上げ音声と自然発話音声のデータを用いて,2つの言語領域のギャップを埋める提案手法の有効性を検証した.その結果,我々の提案する言語モデル置換手法は,JNASコーパスとCSJコーパスに比べて,ASR性能が向上することが示された.
- リンク情報
- ID情報
-
- DOI : 10.1186/s13636-024-00360-8
- ISSN : 1687-4714