2003年 - 2006年
ヒューマノイドのためのアクティブ・オーディションを用いた音環境理解の研究
日本学術振興会 科学研究費助成事業 基盤研究(A) 基盤研究(A)
本研究課題では,聖徳太子のように複数の音を聞き分け認識するような聴覚機能をヒューマノイドに実現することを目標に,ロボットのボディを含めた新しいデバイスの設計,音声や楽音だけでなく混合音を含め音一般の認識し理解する音環境理解研究,画像処理や言語処理さらに行動を統合した音環境認識,及び,ヒューマノイド聴覚機能の開発サイクルを速めるためのバーチャルリアリティ実験環境の構築に取り組んだ.得られた主な成果を以下に記す.
(1)ミッシングフィーチャ理論に基づいた自動マスク生成により,複数の音源定位(MUSIC, Steered Beamformer),音源分離(GSS, ICA),音声認識(Multiband Julius, CTK)との統合し,さらにシステム統合によりロポット聴覚システムのプロトタイプを作成.複数のロボット(SIG2, Robovie-R2, Robovie-Ils, ASIMO)で3話者同時発話認識をほぼ実時間で達成し,人とのインタラクションの可能性が示せた.
(2)視聴覚情報統合による2本のマイクロフォンによる音源定位,音源分離の高性能化を行った.
(3)近接学(Proxemics)の概念を援用し,対人距離を用いて,複数人とのインタラクションの設計手法を考案し,その有効性を京都大学総合博物館で3カ月運用し,実証した.
(4)最近傍識別器を用いた色ターゲット検出によるロバストな顔検出アルゴリズムを適用し,視聴覚情報統合の精度を向上した.
(5)音声認識誤りにロバストな対話技法を考案し,マルチドメイン対話システムの利便性を向上させた.
(6)多重奏や伴奏つきのボーカルなどの音楽音響信号から楽器音認識,ドラム音抽出,歌声認識などの要素技術を開発し,ロボットが音楽を聴くための基礎技術を開発した.
(7)単一音源の環境音から擬音語を自動認識する手法を考案し,音声対話による情報検索システムに適用した.
今後,得られた成果を基にどのようなロポットでも使用可能なロポット聴覚機能の構築を行っていく.
(1)ミッシングフィーチャ理論に基づいた自動マスク生成により,複数の音源定位(MUSIC, Steered Beamformer),音源分離(GSS, ICA),音声認識(Multiband Julius, CTK)との統合し,さらにシステム統合によりロポット聴覚システムのプロトタイプを作成.複数のロボット(SIG2, Robovie-R2, Robovie-Ils, ASIMO)で3話者同時発話認識をほぼ実時間で達成し,人とのインタラクションの可能性が示せた.
(2)視聴覚情報統合による2本のマイクロフォンによる音源定位,音源分離の高性能化を行った.
(3)近接学(Proxemics)の概念を援用し,対人距離を用いて,複数人とのインタラクションの設計手法を考案し,その有効性を京都大学総合博物館で3カ月運用し,実証した.
(4)最近傍識別器を用いた色ターゲット検出によるロバストな顔検出アルゴリズムを適用し,視聴覚情報統合の精度を向上した.
(5)音声認識誤りにロバストな対話技法を考案し,マルチドメイン対話システムの利便性を向上させた.
(6)多重奏や伴奏つきのボーカルなどの音楽音響信号から楽器音認識,ドラム音抽出,歌声認識などの要素技術を開発し,ロボットが音楽を聴くための基礎技術を開発した.
(7)単一音源の環境音から擬音語を自動認識する手法を考案し,音声対話による情報検索システムに適用した.
今後,得られた成果を基にどのようなロポットでも使用可能なロポット聴覚機能の構築を行っていく.
- ID情報
-
- 課題番号 : 15200015
- 体系的課題番号 : JP15200015