2021年10月
Response Type Selection for Chat-like Spoken Dialog Systems Based on LSTM and Multi-task Learning (accepted)
Speech Communication
- ,
- ,
- 巻
- Vol.133
- 号
- No.2021
- 開始ページ
- 23
- 終了ページ
- 30
- 記述言語
- 英語
- 掲載種別
- 研究論文(学術雑誌)
- DOI
- 10.1016/j.specom.2021.07.003
会話型音声対話システムにおいて,ユーザの入力発話と他の多くの発話との比較に基づいて,最初に必要とされる正しい応答タイプを明示的に決定することで,適切な応答を自動的に選択する手法を提案する.そして,この応答タイプの指定に基づいて,応答発話が生成される(バックチャネル,話題の変更,話題の拡大,など).これにより,従来のエンド・ツー・エンドのアプローチでは,ユーザの入力のみを用いて直接応答発話を生成していたのに対し,より適切な応答を生成することができる.応答タイプセレクタとして,我々は,入力発話から抽出された音響的特徴と言語的特徴を利用したLSTMベースのエンコーダ・デコーダフレームワークを提案する.これらの特徴をより正確に抽出するために,入力発話だけでなく,学習コーパスに含まれる応答発話も利用する.また,複数のデコーダを用いたマルチタスク学習についても検討する.提案手法を評価するために,高齢者とインタビュアーの対話コーパスを用いた実験を行った.その結果,提案手法は,サポートベクターマシンを用いたポイントワイズ分類器や,シングルタスク学習のLSTMを用いた従来の手法よりも高い性能を示した.また,音響特徴量で学習した応答タイプセレクタと言語特徴量で学習した応答タイプセレクタを組み合わせ,さらにマルチタスク学習を行うことで,最高の性能を得ることができた.
- リンク情報
- ID情報
-
- DOI : 10.1016/j.specom.2021.07.003
- ISSN : 0167-6393