講演・口頭発表等

2021年3月10日

アクセント句を考慮した日本語 End-to-End 音声合成サーバの構築

日本音響学会研究発表会講演論文集
  • 太田 健吾
  • ,
  • 西村 良太
  • ,
  • 北岡 教英

記述言語
日本語
会議種別

対話ロボットや情報案内システムにおいて,自然な 音声合成は重要な機能の一つである.高品質な合成音 声を生成するためには,豊富な計算資源を前提とした 最先端の End-to-End 型音声合成器を利用できること が望ましいが,ロボットや IoT 機器,スマートフォンと いった計算資源の限られたデバイス上でそのような音 声合成器を駆動することは現実的ではない.こうした 問題に対し,Google Cloud の Text-to-Speech API*1 や,Amazon Polly API*2といったクラウドベースの 音声合成 API を利用する方法も考えられるが,Web に アクセスできない環境でロボットやシステムを動作さ せる場合には不向きである.そこで本研究では,LAN 内で動作する高品質な日本語音声合成サーバを提案す る.本サーバは GPU マシン上で動作し,ソケット通 信によって入力テキストを受け取り,End-to-End 型 音声合成器を用いて自然な合成音声を生成し,クラ イアントに送り返す.合成音声の波形情報だけでな く,合成音声中の各音素の時刻情報も併せて送信され るため,CG アバター [1] やヒューマノイドロボット のリップシンクに用いることも可能である.また,本 サーバでは,入力テキストの音素列に加えて,g2p に よって抽出されたアクセント句の情報も音声合成器の Text2Mel に明示的に入力する.これにより,音素列 のみを入力とする標準的な End-to-End 音声合成器よ りも自然なイントネーションの合成音声を生成するこ とができる.本稿で述べた音声合成サーバは,オープ ンソースソフトとして一般公開される予定である*3.

リンク情報
URL
https://web.db.tokushima-u.ac.jp/cgi-bin/edb_browse?EID=374236