2003年 - 2006年
環境、話者、タスクへの適応性をもつユーザにやさしい音声認識アルゴリズムの研究
文部科学省 科学研究費補助金(基盤研究(B)) 基盤研究(B)
当初計画では、下記の項目の研究を行うことを述べている。1.雑音除去信号処理、高精度音韻モデルおよび環境・話者適応アルゴリズム、2.自由な発話を受け付けるタスク対応言語モデル、3.ユーザにマイクを意識させないハンズフリー音声認識、4.音声対話システムを使いやすくするためのヒューマンファクターの把握、これらの研究を、実験室内に音声認識システムを構築して研究するだけでなく、実環境に、音声認識システムを設置してアルゴリズムの有効性やヒューマンファクターの把握に努める。1.の話者・環境の同時適応を行う教師なし適応アルゴリズムについては、十分統計量に基づく教師なし話者適応アルゴリズムの精度と、任意の1文発声で話者適応を数秒でできるレベルに到達した。2.のタスク対応に関しては、「たけまるくん」の2年間の書き起こしテキストを用いて、言語モデルを改善した。また、子ども用の言語モデル、大人用の言語モデルを作成して、子どもと大人の並列でコーディングにより、単語認識精度、応答性能の大幅な向上を達成した。3.のハンズフリー音声認識に関しては、ヌルビームフォーマ型のSSA (Spatial Subtraction Array)のほかに、ブラインド音源分離(BSS)のSIMO-ICAを考案して、歪みなしの実時間音源分離技術を確立した。さらに、BSSとSSAのメリットを生かしたBSSA (Blind Spatial Subtraction Array)を考案した。4.に関しては、生駒市北コミュニティセンターに大語彙連続音声認識Juliusベースの音声情報案内システム「たけまるくん」を設置して、4年半以上にわたり運用した。最初の2年間の音声データの書き起こしと応答テキストの付与を行った。このデータベースにより、音韻モデル、言語モデル、質問応答データベースの精度が向上した。さらに、騒音レベルの高い近鉄学研北生駒駅に、2種類の音声情報案内システム、エージェントタイプの「キタちゃん」とロボットタイプの「キタロボ」を設置し、1年以上、運用している。「たけまるくん」からのポータビリィティなどについても検討した。その他、当初計画になかった下記の事柄についても、大きな成果をあげた。5.静かな音声メディア「非可聴つぶやき」による静かな音声認識「無音声認識」と声を出さない電話「無音声電話」を提案し、かつ、可能性を実証した。
- ID情報
-
- 課題番号 : 15300060