2021年12月4日
Text-to-speech system for low-resource language using cross-lingual transfer learning and data augmentation
EURASIP Journal on Audio, Speech, and Music Processing
- ,
- ,
- ,
- ,
- 巻
- Vol.2021
- 号
- No.42
- 開始ページ
- 1
- 終了ページ
- 20
- 記述言語
- 英語
- 掲載種別
- 研究論文(学術雑誌)
- DOI
- 10.1186/s13636-021-00225-4
現在,自動音声合成(TTS)システムに深層学習技術が適用されており,その結果,性能が大幅に向上している.しかし,これらの手法では,モデル学習のために大量のテキストと音声のペアデータが必要であり,このデータの収集にはコストがかかる.そこで,本稿では,スペクトログラム予測ネットワークとニューラルボコーダの両方を含む単一話者用TTSシステムを提案する.このシステムでは,ターゲット言語のテキストと音声のペアデータを30分程度学習するだけでよい.本研究では,入力された音素列からメル・スペクトログラムを生成するTTSシステムのスペクトログラム予測モデルを学習するための3つのアプローチを評価する.(1)言語間転移学習,(2)データ補強,(3)前2者の組み合わせ.言語間転移学習法では,英語(24時間)と日本語(10時間)の2つの高リソース言語データセットを使用した.また,3つの手法の学習には30分の目標言語データを使用し,手法2と3の学習に使用する拡張データの生成にも使用しました.その結果,言語間転移学習と拡張データの両方を用いて学習を行うことで,最も自然な目標音声の合成が可能になることがわかった.また,単一話者と複数話者の学習方法を比較し,それぞれ逐次学習と同時学習を行いました.多話者モデルは,単話者で低リソースのTTSモデルを構築するのに有効であることがわかった.さらに,2つのParallel WaveGAN (PWG) ニューラルボコーダを学習しました.1つは13時間の我々の増強データと30分のターゲット言語データを使用し,もう1つはオリジナルのターゲット言語データセットの12時間全体を使用しました.主観的なABプリファレンステストの結果,拡張データを用いて学習したニューラルボコーダは,ターゲット言語の全データセットを用いて学習したボコーダとほぼ同等の音声品質を達成した.以上の結果から,スペクトログラム予測ネットワークとPWGニューラルボコーダから構成される我々のTTSシステムは,わずか30分の目標言語訓練データで妥当な性能を達成できることがわかった.また,モデルの学習と補強データの生成に3時間のターゲット言語データを用いることで,12時間のターゲット言語データで学習したベースラインモデルとほぼ同等の性能を達成できることがわかった.
- リンク情報
- ID情報
-
- DOI : 10.1186/s13636-021-00225-4
- ISSN : 1687-4722
- eISSN : 1687-4722