講演・口頭発表等

2020年9月9日

感情表現が可能なEnd-to-End日本語音声合成システムの構築

日本音響学会研究発表会講演論文集
  • 山崎 大河
  • ,
  • 西村 良太
  • ,
  • 北岡 教英

記述言語
日本語
会議種別

本研究では,深層学習に基づいた手法で感情表現が可 能な日本語音声合成システムを構築する. Tacotron2 を参考にし, 人間の音声に近い表現力のある音声合成 器を構築することを目的とする. 声優統計コーパスの 藤東知夏氏の音声 (通常・喜び・怒りの感情で読まれ た音声が各10分) を最終的な学習データとする. しか し, このデータセットだけではTacotron2 の学習デー タとしては少ないので, 大規模コーパス (LJ Speech) でモデルを学習しておき, このモデルに追加学習をす ることで問題解決を行った. また, 入力テキストに対 して一文字ごとに感情のラベルを付与することで感 情表現を行う. この方法により構築されたモデルでは 一つのテキスト全体に対して一つの感情を表現でき るだけではなく, テキストの途中で感情を変えること ができる.

リンク情報
URL
https://web.db.tokushima-u.ac.jp/cgi-bin/edb_browse?EID=373077