2007年 - 2009年
実世界環境下における遠隔発話の音声認識と話者認識およびインデックス化に関する研究
文部科学省 科学研究費補助金(萌芽研究, 挑戦的萌芽研究) 萌芽研究, 挑戦的萌芽研究
- 課題番号
- 19650040
- 体系的課題番号
- JP19650040
- 担当区分
- 連携研究者
- 配分額
-
- (総額)
- 3,200,000円
- (直接経費)
- 3,200,000円
- (間接経費)
- 0円
- 資金種別
- 競争的資金
遠隔発話の音声認識に関しては、H20年度とH21年度に開発した話者の位置と発声方向の同定方法を用いた認識手法を開発した。つまり、音源位置の同定に基づいて、マイクロフォンアレイのビームフォーマーによって音声を強調し、発声方向の向きの同定によって、発声語彙を推定・制限する方法により認識率を高めた。さらに、残響補正の基本的な手法であるケプストラム平均正規化法を、短時間の発声によりオンラインで適用できる技術を開発した。これは、混合ガウス分布(GMM)モデルにより音声をモデル化しておき、入力音声の各フレームをGMMの要素に対応付け、その要素ごとにあらかじめ学習しておいたケプストラム平均正規化量を用いて正規化するもので、従来手法なら数単語の発声時間長を要していたものが、1単語の発声でも正規化の効果が確認できた。遠隔発話の話者認識に関しては、マイクロフォンアレイによる音声強調をした音声に対して、H20年度とH21年度に開発したスペクトル情報(MFCC)と位相情報の併用法を用いた認識手法を開発した。インデックス化に関しては、音声認識と話者認識結果の後処理として、認識結果からの場所とか人名、組織名などの固有名の抽出方法を開発した。テキスト入力ではかなり精度良く固有名を抽出できたが、遠隔発話の音声認識が非常に困難なため、満足のいく結果は得られなかった。
- リンク情報
- ID情報
-
- 課題番号 : 19650040
- 体系的課題番号 : JP19650040