2003年 - 2006年

環境、話者、タスクへの適応性をもつユーザにやさしい音声認識アルゴリズムの研究

文部科学省科学研究費補助金(基盤研究(B)) 基盤研究(B)

鹿野清宏
李晃伸
川波弘道
猿渡洋
戸田智基

課題番号

15300060

担当区分

連携研究者

配分額

(総額): 16,100,000円
(直接経費): 16,100,000円
(間接経費): 0円

資金種別

競争的資金

当初計画では、下記の項目の研究を行うことを述べている。1.雑音除去信号処理、高精度音韻モデルおよび環境・話者適応アルゴリズム、2.自由な発話を受け付けるタスク対応言語モデル、3.ユーザにマイクを意識させないハンズフリー音声認識、4.音声対話システムを使いやすくするためのヒューマンファクターの把握、これらの研究を、実験室内に音声認識システムを構築して研究するだけでなく、実環境に、音声認識システムを設置してアルゴリズムの有効性やヒューマンファクターの把握に努める。1.の話者・環境の同時適応を行う教師なし適応アルゴリズムについては、十分統計量に基づく教師なし話者適応アルゴリズムの精度と、任意の1文発声で話者適応を数秒でできるレベルに到達した。2.のタスク対応に関しては、「たけまるくん」の2年間の書き起こしテキストを用いて、言語モデルを改善した。また、子ども用の言語モデル、大人用の言語モデルを作成して、子どもと大人の並列でコーディングにより、単語認識精度、応答性能の大幅な向上を達成した。3.のハンズフリー音声認識に関しては、ヌルビームフォーマ型のSSA (Spatial Subtraction Array)のほかに、ブラインド音源分離(BSS)のSIMO-ICAを考案して、歪みなしの実時間音源分離技術を確立した。さらに、BSSとSSAのメリットを生かしたBSSA (Blind Spatial Subtraction Array)を考案した。4.に関しては、生駒市北コミュニティセンターに大語彙連続音声認識Juliusベースの音声情報案内システム「たけまるくん」を設置して、4年半以上にわたり運用した。最初の2年間の音声データの書き起こしと応答テキストの付与を行った。このデータベースにより、音韻モデル、言語モデル、質問応答データベースの精度が向上した。さらに、騒音レベルの高い近鉄学研北生駒駅に、2種類の音声情報案内システム、エージェントタイプの「キタちゃん」とロボットタイプの「キタロボ」を設置し、1年以上、運用している。「たけまるくん」からのポータビリィティなどについても検討した。その他、当初計画になかった下記の事柄についても、大きな成果をあげた。5.静かな音声メディア「非可聴つぶやき」による静かな音声認識「無音声認識」と声を出さない電話「無音声電話」を提案し、かつ、可能性を実証した。

リンク情報

URL: http://kaken.nii.ac.jp/d/p/15300060.ja.html

ID情報

課題番号 : 15300060

猿渡洋

共同研究・競争的資金等の研究課題

環境、話者、タスクへの適応性をもつユーザにやさしい音声認識アルゴリズムの研究

メニュー

共著者の一覧