データベース検索を行う音声対話システムにおいて,ユーザの意図を反映し,音声認識誤りに対処して応答生成を行うための対話状態を推定するモデルについて述べる.データベース検索タスクにおいて,対話の状態が 「検索条件の指定」「情報の提示要求」 の二つを遷移するとモデル化する.この 2 つの状態を対話中から得られる素性に基づき,ロジスティック回帰により予測する.レストランデータベース検索を行う音声対話システムを構築し,7 名の被験者から対話データを収集し,モデルの学習実験を行った.ベースラインシステムでの対話状態の決定精度が 87.1% であるのに対して,学習されたモデルでは,オープンテストで 97.4% であった.また,モデルに用いた素性のうち,どの素性が対話状態の推定に寄与しているかの確認も行った.We describe an estimation model of dialogue states in spoken dialogue systems for the database search task. We model dialogues in the database search task as consisting of two states: "specifying retrieval conditions (search)" and "requesting detailed information about specific entries (info.)". The two states are predicted by a logistic regression classifier based on features obtained from the dialog. We developed a spoken dialogue system for the restaurant database search task and collected dialogue data from seven participants. The experimental result showed that the estimation accuracy was 97.4%. We investigated which features contributed to the estimation of the states.
