藤本雅清

J-GLOBALへ         更新日: 18/11/08 10:18
 
アバター
研究者氏名
藤本雅清
URL
http://ast-astrec.nict.go.jp/aboutus/member/fujimoto/index-j.html
所属
国立研究開発法人 情報通信研究機構
部署
先進的音声翻訳研究開発推進センター 先進的音声技術研究室
職名
主任研究員
学位
博士(工学)

プロフィール

1997年龍谷大学理工学部電子情報学科卒業.2001年同大学院修士課程修了.2004年同大学大学院博士後期課程単位取得退学.博士(工学).2004-2006年ATR音声言語コミュニケーション研究所研究員.2006-2016年日本電信電話株式会社NTTコミュニケーション科学基礎研究所研究員.現在,国立研究開発法人 情報通信研究機構 先進的音声翻訳研究開発推進センター 先進的音声技術研究室 主任研究員.実環境音声認識に関する研究に従事.2003年日本音響学会粟屋潔学術奨励賞,2008年電子情報通信学会MVE研究会MVE賞,2011年情報処理学会山下記念研究賞,2011年電子情報通信学会ISS査読功労賞,2015年IEEE ASRU '15 Best Paper Award Honorable Mention各受賞.IEEE,ISCA,電子情報通信学会,情報処理学会,日本音響学会各会員.

研究分野

 
 

経歴

 
2016年4月
 - 
現在
国立研究開発法人 情報通信研究機構 主任研究員
 
2013年7月
 - 
2016年3月
日本電信電話(株) NTTコミュニケーション科学基礎研究所 研究員主任
 
2008年1月
 - 
2013年6月
日本電信電話(株) NTTコミュニケーション科学基礎研究所 研究員
 
2006年4月
 - 
2007年12月
日本電信電話(株) NTTコミュニケーション科学基礎研究所 リサーチアソシエイト
 
2005年4月
 - 
2006年3月
(株)国際電気通信基礎技術研究所 音声言語コミュニケーション研究所 研究員
 

受賞

 
2015年12月
IEEE ASRU '15 Best Paper Award Honorable Mention
 
2011年6月
電子情報通信学会 平成23年度ISS査読功労賞
 
2011年3月
情報処理学会 平成22年度 山下記念研究賞
 
2008年11月
電子情報通信学会 MVE研究会 MVE賞
 
2003年3月
日本音響学会 第20回 粟屋 潔学術奨励賞
 

論文

 
Hiroko Kato, Kentaro Ishizuka, Masakiyo Fujimoto
Speech Communication   50(6) 476-486   2008年6月   [査読有り]
Masakiyo Fujimoto and Kentaro Ishizuka
IEICE Transactions on Information and Systems   E91-D(3) 467-477   2008年3月   [査読有り]
AR-GARCHモデルに基づいた音声区間検出手法の提案
加藤 比呂子, 石塚健太郎, 藤本 雅清
電子情報通信学会論文誌   90-D(12) 3210-3220   2007年12月   [査読有り]
Masakiyo Fujimoto, Kazuya Takeda, and Satoshi Nakamura
IEICE Transactions on Information and Systems   E89-D(11) 2783-2793   2006年11月   [査読有り]
マルチモーダルインタラクションによる映像中の人物検索
藤本 雅清, 有木 康雄, 堂下 修司
日本音響学会論文誌   62(3) 182-192   2006年3月   [査読有り]

Misc

 
荒木 章子, 藤本 雅清, 吉岡 拓也, 堀 貴明, 中谷 智広
電子情報通信学会技術研究報告. SIP, 信号処理   111(27) 83-88   2011年5月
近年,会話音声の自動アノテーションや議事録作成,会議支援などを目的に,会話音声を認識・理解する会話シーン分析の研究が国内外で盛んに行なわれている.会話においては,複数話者が自由に発話することから,収録音声は複数話者の声や環境雑音が重畳された複雑な構造をしており,音声認識などの分析を行なう際には,様々な音声処理技術が必要である.本稿では,会話シーン分析で用いられる,マイクロホンアレイによる音声強調処理と話者区間推定(ダイアライゼーション)にフォーカスを当て,その代表的な技術を紹介する.
藤本 雅清, 中谷 智広, 渡部 晋治
電子情報通信学会技術研究報告. SP, 音声   111(28) 7-12   2011年5月
本研究では,多峰的な分布に従う非定常雑音のモデルをオンライン推定して雑音抑圧に利用することにより,強い非定常性を持つ雑音環境下での音声認識性能が大幅に改善することを示す.従来のVector Taylor series(VTS)等に代表される雑音抑圧法では,雑音のモデルに単一性のガウス分布を適用していたが,実世界で観測される雑音の多くは多峰的な分布に従っているため,雑音のモデル化が十分でなかった.提案手法では,雑音信号を観測信号から最小平均二乗誤差(MMSE: Minimum mean sq...
荒木 章子, 藤本 雅清, 吉岡 拓也, 堀 貴明, 中谷 智広
電子情報通信学会技術研究報告. SP, 音声   111(28) 83-88   2011年5月
近年,会話音声の自動アノテーションや議事録作成,会議支援などを目的に,会話音声を認識・理解する会話シーン分析の研究が国内外で盛んに行なわれている.会話においては,複数話者が自由に発話することから,収録音声は複数話者の声や環境雑音が重畳された複雑な構造をしており,音声認識などの分析を行なう際には,様々な音声処理技術が必要である.本稿では,会話シーン分析で用いられる,マイクロホンアレイによる音声強調処理と話者区間推定(ダイアライゼーション)にフォーカスを当て,その代表的な技術を紹介する.
藤本 雅清, 渡部 晋治, 中谷 智広
電子情報通信学会技術研究報告. SP, 音声   110(357) 43-48   2010年12月
本研究では,雑音のバイアス-残差成分の分解に基づく非定常雑音の推定法を提案し,推定された雑音を用いて雑音抑圧を行うことにより雑音環境下での音声認識性能が改善することを示す.非定常雑音を時間不変のバイアス成分と時間変動を伴う残差成分に分解することにより,各々の役割が明確になり,各成分に対して適切なパラメータ推定法を適用することができる.本研究ではバイアス成分を観測信号の時系列とEMアルゴリズムにより推定し,残差成分をAuto-regressive (AR)過程に基づく並列非線形カルマンフィル...
田村 哲嗣, 宮島 千代美, 北岡 教英, 武田 一哉, 山田 武志, 滝口 哲也, 柘植 覚, 山本 一公, 西浦 敬信, 中山 雅人, 傳田 遊亀, 藤本 雅清, 松田 繁樹, 小川 哲司, 黒岩 眞吾, 中村 哲
情報処理学会研究報告. SLP, 音声言語情報処理   2010(7) 1-6   2010年7月
本稿では,音声と画像を用いたマルチモーダル音声認識の共通評価基盤 CENSREC-1-AV について紹介する.CENSREC-1-AV では,音声・画像データベースおよびベースラインシステムを提供する.音声は学習用クリーンデータのほか,乗用車走行雑音を付与したものを収録した.画像はカラー映像と近赤外線映像を収録し,ガンマ補正を用いて乗用車走行シミュレーション画像をテストデータとした.ベースラインシステムでは,MFCC と,固有顔ないしはオプティカルフローを特徴量として,マルチストリーム H...
藤本 雅清
電子情報通信学会技術研究報告. SP, 音声   110(81) 7-12   2010年6月
本稿では音声区間検出(VAD:Voice Activity Detection)の基本的な事柄,及び最近の研究動向について述べる.まず,VADの構成要素と評価方法について述べ,技術の応用先についても言及する.次に,VADの古典的な手法と最新の研究成果を紹介する.その後,過去10年間の世界的な研究動向を振り返り,今後の研究のありかたについて述べる.
藤本 雅清, 渡部 晋治, 中谷 智広
情報処理学会研究報告. SLP, 音声言語情報処理   2009(12) 1-6   2009年12月
本研究では,確率モデルに基づく音声区間検出法に Dirichlet 事前分布を導入して音声区間検出の性能改善が得られることを述べる.確率モデルに基づく音声区間検出法では,Switching カルマンフィルタを用いて観測信号の環境に適応した音声/非音声 GMM を逐次生成し,各 GMM の確率比に基づき音声/非音声の識別を行っている.生成される GMM には不要な分布と重要な分布が混在しており,不要な分布を取り除き,重要な分布のみを用いることにより VAD の性能改善が得られる.分布の削減を...
石塚 健太郎, 藤本 雅清, 中谷 智広
日本音響学会誌   65(10) 537-543   2009年10月
KITAOKA Norihide, YAMADA Takeshi, TSUGE Satoru, MIYAJIMA Chiyomi, YAMAMOTO Kazumasa, NISHIURA Takanobu, NAKAYAMA Masato, DENDA Yuki, FUJIMOTO Masakiyo, TAKIGUCHI Tetsuya, TAMURA Satoshi, MATSUDA Shigeki, OGAWA Tetsuji, KUROIWA Shingo, TAKEDA Kazuya, NAKAMURA Satoshi
Acoustical science and technology   30(5) 363-371   2009年9月
Voice activity detection (VAD) plays an important role in speech processing including speech recognition, speech enhancement, and speech coding under noisy environments. We have developed an evaluation framework for VAD under noisy environments, n...
北岡 教英, 藤本 雅清, 滝口 哲也, 大淵 康成, 中村 哲
情報処理学会研究報告. SLP, 音声言語情報処理   2009(10)    2009年1月
音声認識実用化に向けて「頑健性」の必要性が叫ばれて久しい.頑健性を指向し,主に音響分析・音響モデルの側面から,いまなにが行われ,なにが課題とされているのかを考えてみたい.
石塚 健太郎, 荒木 章子, 大塚 和弘, 藤本 雅清, 中谷 智広
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション   108(337) 25-30   2008年12月
本稿では,音響情報と映像情報を確率的に統合して用いることにより,多人数会話において「誰がいつ話したか」を推定する話者決定(Speaker Diarization)技術を提案する.音響情報と映像情報は,3本のマイクロホンからなる三角形のマイクロホンアレイと魚眼レンズを装備した2台のカメラから構成される,多人数会話分析のための小規模システムを用いて収録される.このシステムで収録されたデータを元に話者決定を実現するために,提案技術は音声区間検出技術,話者方向推定技術,顔画像追跡技術から得られる発...
藤本 雅清, 石塚 健太郎, 中谷 智広
情報処理学会研究報告. SLP, 音声言語情報処理   2008(123) 13-18   2008年12月
本研究では,雑音下音声認識における頑健なフロントエンド処理について述べる.提案するフロントエンド処理は音声区間検出(VAD:Voice Activity Detection)と雑音抑圧を統合した処理となっており,(1)確率モデルの共有,(2)音声/非音声状態確率を用いたWienerフィルタ設計,(3)雑音抑圧音声を用いたVAD性能の改善の3点が手法を構成する大きな要素となっている.また提案手法は逐次処理によりフレーム遅延無しで処理を行うことが可能である.本研究では提案手法を用いることにより...
石塚 健太郎, 荒木 章子, 大塚 和弘, 藤本 雅清, 中谷 智広
情報処理学会研究報告. SLP, 音声言語情報処理   2008(123) 25-30   2008年12月
本稿では,音響情報と映像情報を確率的に統合して用いることにより,多人数会話において「誰がいつ話したか」を推定する話者決定(Speaker Diarization)技術を提案する.音響情報と映像情報は,3本のマイクロホンからなる三角形のマイクロホンアレイと魚眼レンズを装備した2台のカメラから構成される,多人数会話分析のための小規模システムを用いて収録される.このシステムで収録されたデータを元に話者決定を実現するために,提案技術は音声区間検出技術,話者方向推定技術,顔画像追跡技術から得られる発...
藤本 雅清, 石塚 健太郎, 中谷 智広
電子情報通信学会技術研究報告. SP, 音声   108(338) 13-18   2008年12月
本研究では,雑音下音声認識における頑健なフロントエンド処理について述べる.提案するフロントエンド処理は音声区間検出(VAD: Vbice Activity Detection)と雑音抑圧を統合した処理となっており,(1)確率モデルの共有,(2)音声/非音声状態確率を用いたWienerフィルタ設計,(3)雑音抑圧音声を用いたVAD性能の改善の3点が手法を構成する大きな要素となっている.また提案手法は逐次処理によりフレーム遅延無しで処理を行うことが可能である.本研究では提案手法を用いることによ...
大塚 和弘, 荒木 章子, 石塚 健太郎, 藤本 雅清, 大和 淳司
電子情報通信学会技術研究報告. MVE, マルチメディア・仮想環境基礎   108(328) 55-62   2008年11月
本稿では,複数人の対面会話シーンの分析に向けた実時間マルチモーダルシステムを提案する.このシステムでは,基本的な会話の状態を知るために,「誰がいつ話しているか」という話者の同定(話者ダイアリゼーションと呼ぶ),及び,「誰が誰をみているか」という視覚的な注意の焦点の推定を実時間で行うことを目標とする.まず,会話シーンを観測するために,2台の魚眼レンズ付きカメラと3本のマイクからなる全方位マルチモーダルセンサを提案する.次に,全周画像上にて会話参加者の顔の位置と方向の推定を行う.ここではその方...
北岡 教英, 山田 武志, 滝口 哲也, 柘植 覚, 山本 一公, 宮島 千代美, 西浦 敬信, 中山 雅人, 傳田 遊亀, 藤本 雅清, 田村 哲嗣, 松田 繁樹, 小川 哲司, 黒岩 眞吾, 武田 一哉, 中村 哲
情報処理学会研究報告. SLP, 音声言語情報処理   2008(102) 41-46   2008年10月
我々雑音下音声認識評価ワーキンググループは,2001年10月から情報処理学会音声言語情報処理研究会の下に組織され,数多く研究されている雑音下の音声認識手法を容易に評価・比較可能な標準評価基盤CENSRFECシリーズの開発・配布を行ってきた.本稿ではそのCENSRECシリーズを概観し,また主な音声認識研究の発表の場である日本音響学会全国大会およびIEEE ICASSPの発表件数調査を踏まえて,その位置づけを確認する.最後に,今後の展望について述べる.
荒木章子, 藤本雅清, 石塚健太郎, 中谷智広, 澤田宏, 牧野昭二
電子情報通信学会技術研究報告. EA, 応用音響   108(143) 19-24   2008年7月
我々は、会議状況において「いつ誰が話したか」を推定する方法を検討している。これは、音声区間検出器(VAD)で推定した音声存在確率と、音声区間における音声到来方向(DOA)の分類結果とを用いて、会議音声中の各話者の音声区間を推定するものである。これを本稿では話者識別と呼ぶ。本稿では、この性能向上を目的とし、2つの方法を提案する。提案1として、DOAを各時間周波数スロットで推定することで、特に複数人同時発話時の話者識別精度を向上させる。提案2として、VAD結果およびDOA情報を確率的に統合する...
藤本雅清, 石塚健太郎, 中谷智広
電子情報通信学会技術研究報告. SP, 音声   108(142) 13-18   2008年7月
本研究では,雑音下音声認識における頑健なフロントエンド処理について述べる.通常,雑音下音声認識のフロントエンド処理としては,音声区間検出(VAD:Voice Activity Detection)と雑音抑圧が用いられるが,多くの場合,これら二つの技術を単純に繋ぎ合わせるだけに留まっていた.しかし,それぞれの技術が出力する情報は,それぞれを改善するのに有益な情報が多い.従って,高性能なフロントエンド処理を実現するためには,技術の単純なつなぎ合わせではなく,相互に情報のやり取りが行える処理機構...
北岡教英, 山田武志, 滝口哲也, 柘植覚, 山本一公, 宮島千代美, 西浦敬信, 中山雅人, 傳田遊亀, 藤本雅清, 田村哲嗣, 松田繁樹, 小川哲司, 黒岩眞吾, 武田一哉, 中村哲
情報処理学会研究報告. SLP, 音声言語情報処理   2007(129) 1-6   2007年12月
音声認識実用化において,雑音下の音声認識の性能向上が叫ばれている.現在も多くの研究が行われているが,これらの手法を客観的に比較評価する標準評価基盤が必要と考えられる.我々は2001年10月から情報処理学会音声言語情報処理研究会の下で雑音下音声認識評価ワーキンググループとして活動し,標準評価基盤CENSRECシリーズを構築・配布している.これまでのCENSRECシリーズを概観し,さらに今年度新たに配付する残響下音声認識評価基盤CENSREC-4の概要を述べる,そして,ワーキンググループ最終年...
藤本 雅清, 石塚 健太郎, 中谷 智広
情報処理学会研究報告. SLP, 音声言語情報処理   69 7-12   2007年12月
藤本雅清, 石塚健太郎, 中谷智広
情報処理学会研究報告. SLP, 音声言語情報処理   2007(129) 7-12   2007年12月
本研究では,複数の音声区間検出法の適応的統合の検討を行う.本研究にて採用する音声区間検出法は,音声の周期性・非周期性成分比とSwitchingカルマンフィルタに基づく手法であり,各手法の統合はそれぞれが出力する尤度をフレーム単位で重み付け加算することにより行う.提案手法の評価はCENSREC-1-Cを用いて行い,雑音環境下において高い音声区間検出性能が得られることを示す.また,提案手法における尤度の重み付け加算方法などについて,実験を伴った考察を行う.
石塚健太郎, 荒木章子, 藤本雅清, 瀬戸口久雄, 高梨克也, 河原達也
情報処理学会研究報告. SLP, 音声言語情報処理   2007(129) 217-222   2007年12月
会議やポスター発表などの,多人数によるインタラクションを含む場面において,「誰がいつ話したか?」を検出できれば,検索のためにインデクスを付与する場合や談話構造分析の手がかりとして有用である.この実現のためには,まず観測信号の中から何らかの音声が話されている区間を取り出し(発話区間検出),検出された音声区間について発話者を分類する必要がある(話者識別).本稿では,マイクロホンアレイによりポスター発表を収録して得られた音声データに対し,「いつ」を捉えるために音声の周期性・非周期性の比を用いた発...
藤本雅清, 石塚健太郎, 中谷智広
電子情報通信学会技術研究報告. SP, 音声   107(406) 7-12   2007年12月
本研究では,複数の音声区間検出法の適応的統合の検討を行う.本研究にて採用する音声区間検出法は,音声の周期性・非周期性成分比とSwitchingカルマンフィルタに基づく手法であり,各手法の統合はそれぞれが出力する尤度をフレーム単位で重み付け加算することにより行う.提案手法の評価はCENSREC-1-Cを用いて行い,雑音環境下において高い音声区間検出性能が得られることを示す.また,提案手法における尤度の重み付け加算方法などについて,実験を伴った考察を行う.
石塚健太郎, 荒木章子, 藤本雅清, 瀬戸口久雄, 高梨克也, 河原達也
電子情報通信学会技術研究報告. SP, 音声   107(406) 217-222   2007年12月
会議やポスター発表などの,多人数によるインタラクションを含む場面において,「誰がいつ話したか?」を検出できれば,検索のためにインデクスを付与する場合や談話構造分析の手がかりとして有用である.この実現のためには,まず観測信号の中から何らかの音声が話されている区間を取り出し(発話区間検出),検出された音声区間について発話者を分類する必要がある(話者識別).本稿では,マイクロホンアレイによりポスター発表を収録して得られた音声データに対し,「いつ」を捉えるために音声の周期性・非周期性の比を用いた発...
石塚健太郎, 荒木章子, 藤本雅清, 瀬戸口久雄, 高梨克也, 河原達也
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション   107(405) 217-222   2007年12月
会議やポスター発表などの,多人数によるインタラクションを含む場面において,「誰がいつ話したか?」を検出できれば,検索のためにインデクスを付与する場合や談話構造分析の手がかりとして有用である.この実現のためには,まず観測信号の中から何らかの音声が話されている区間を取り出し(発話区間検出),検出された音声区間について発話者を分類する必要がある(話者識別).本稿では,マイクロホンアレイによりポスター発表を収録して得られた音声データに対し,「いつ」を捉えるために音声の周期性・非周期性の比を用いた発...
加藤 ソルヴァン 比呂子, 石塚 健太郎, 藤本 雅清
電子情報通信学会論文誌. D, 情報・システム   90(12) 3210-3220   2007年12月
実環境における目的音声区間検出は,様々な音声信号処理の基盤技術と考えられるが,従来の音響特徴量に基づく技術では,強い背景雑音があるような実環境において必ずしも十分に動作せず,有効な音響特徴量に対して検討の余地がある.人の発声する音声時系列の頻度分布の形状は中心のひずむすその重い分布を示している.音声が常に背景雑音に埋もれる状況を想定するとそのような統計的性質をもつ時系列が検出されるべき目的音声となる.そこで本論文では,音響信号を自己回帰-一般化自己回帰条件付分散不均一(AR-GARCH)モ...
藤本雅清, 石塚健太郎, 中谷智広
情報処理学会研究報告. SLP, 音声言語情報処理   2007(75) 69-74   2007年7月
本研究では,音声の周期性・非周期性成分比とSwitching Kalman filterに基づく雑音に頑健な音声区間検出法について検討を行う.提案手法は,音声特徴抽出部(音声の周期性・非周期性成分比)と,音声/非音声織別部(Switchingカルマンフィルタに基づく識別)の双方に頑健性を有しており,それぞれを統合的に扱うことにより,雑音において高い音声区間検出性能が得られることを示す.また,検出された音声信号の音声認識評価を行い,提案法が音声認識性能の改善に寄与することを示す.
北岡教英, 山田武志, 滝口哲也, 柘植覚, 山本一公, 宮島千代美, 西浦敬信, 中山雅人, 傳田遊亀, 藤本雅清, 田村哲嗣, 黒岩眞吾, 武田一哉, 中村哲
情報処理学会研究報告. SLP, 音声言語情報処理   2006(136) 1-6   2006年12月
雑音下の音声認識の性能向上は音声認識実用化のために急務である.これまでに数多くの研究が行われてきており,これらの手法を客観的に比較評価できる標準評価基盤の構築を目的として, 2001年10月,情報処理学会音声言語情報処理研究会の下に雑告下音声認識評価ワーキンググループを組織した.本稿ではこれまでの標準評価基盤CENSRECシリーズを振り返り,今年度新たに配付したCENSREC-1-Cの概要と位置づけを述べる.さらに,今後どのような方針で新たな評価基盤を設計・構築・配付するのかについての考え...
藤本雅清, 石塚健太郎, 加藤比呂子
情報処理学会研究報告. SLP, 音声言語情報処理   2006(136) 13-18   2006年12月
本研究では,音声と雑音両方の状態遷移過程を有する雑音に頑健な音声区間検出法を提案する.提案法では,事前にクリーン音声と無音の状態遷移モデルを構成し,観測信号が入力されると並列非線形カルマンフィルタにより雑音を推定し,状態遷移モデルを雑音環境に逐次適応させる.適応したモデルを用いて,音声状態(クリーン音声+雑音)と非音声状態(無音+雑音)の尤度比を算出することにより,音声/非音声識別を行う.また,時間順方向の前向き推定のみではなく,時間逆方向の後向き推定を導入することにより,さらなる改善が得...
中村篤, 大庭隆伸, 渡部晋治, 石塚健太郎, 藤本雅清, 堀貴明, マクダーモットエリック, 南泰浩
情報処理学会研究報告. SLP, 音声言語情報処理   2006(136) 251-256   2006年12月
NTTコミュニケーション科学基礎研究所では実環境での自然な話し言葉を対象とした音声認識の研究を進めている.本報告では,そのテストベッドとして開発中の音声認識ソフトウェア'SOLON'の,日本語話し言葉コーパス(CSJ: Corpus of Spontaneous Japanese)を用いたベンチマーク評価結果を報告する.音声区間の事前検出,発話速度依存音声分析,言語モデルの誤り訂正学習,全共分散型モデルの識別学習,教師なし話者適応,及びそれらの組み合わせによる効果を実験により示す.
藤本雅清, 石塚健太郎, 加藤比呂子
電子情報通信学会技術研究報告. SP, 音声   106(443) 13-18   2006年12月
本研究では,音声と雑音両方の状態遷移過程を有する雑音に頑健な音声区間検出法を提案する.提案法では,事前にクリーン音声と無音の状態遷移モデルを構成し,観測信号が入力されると並列非線形カルマンフィルタにより雑音を推定し,状態遷移モデルを雑音環境に逐次適応させる.適応したモデルを用いて,音声状態(クリーン音声+雑音)と非音声状態(無音+雑音)の尤度比を算出することにより,音声/非音声識別を行う.また,時間順方向の前向き推定のみではなく,時間逆方向の後向き推定を導入することにより,さらなる改善が得...
藤本雅清, 石塚健太郎, 加藤比呂子
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション   106(441) 13-18   2006年12月
本研究では,音声と雑音両方の状態遷移過程を有する雑音に頑健な音声区間検出法を提案する.提案法では,事前にクリーン音声と無音の状態遷移モデルを構成し,観測信号が入力されると並列非線形カルマンフィルタにより雑音を推定し,状態遷移モデルを雑音環境に逐次適応させる.適応したモデルを用いて,音声状態(クリーン音声+雑音)と非音声状態(無音+雑音)の尤度比を算出することにより,音声/非音声識別を行う.また,時間順方向の前向き推定のみではなく,時間逆方向の後向き推定を導入することにより,さらなる改善が得...
FUJIMOTO Masakiyo, TAKEDA Kazuya, NAKAMURA Satoshi
IEICE transactions on information and systems   E89-D(11) 2783-2793   2006年11月
This paper introduces a common database, an evaluation framework, and its baseline recognition results for in-car speech recognition, CENSREC-3, as an outcome of the IPSJ-SIG SLP Noisy Speech Recognition Evaluation Working Group. CENSREC-3, which ...
北岡教英, 山田武志, 柘植覚, 宮島千代美, 西浦敬信, 中山雅人, 傳田遊亀, 藤本雅清, 山本一公, 滝口哲也, 黒岩眞吾, 武田一哉, 中村哲
情報処理学会研究報告. SLP, 音声言語情報処理   2006(107) 1-6   2006年10月
雑音下における音声認識,音声強調,音声符号化などの音声処理で重要な役割を果たす音声区間検出(Voice Activity Detection; VAD)手法を評価するための基盤としてCENSREC-1-Cを構築した.これは,雑音下で発声された連続数字音声データとVAD結果の評価を行うツール群からなる.評価方法としては一般的なフレームベースの検出性能評価尺度と音声認識を指向した発話単位の評価尺度を定義した.そして,音声パワーに基づくづくベースライン手法によるVADの結果をこれら2つの評価尺度...
FUJIMOTO Masakiyo, NAKAMURA Satoshi
IEICE transactions on information and systems   E89-D(3) 922-930   2006年3月
This paper addresses a speech recognition problem in nonstationary noise environments: the estimation of noise sequences. To solve this problem, we present a particle filter-based sequential noise estimation method for front-end processing of spee...
藤本雅清, 有木康雄, 堂下修司
日本音響学会誌   62(3) 182-192   2006年3月
近年,インターネットが爆発的に普及したが,我々が情報を得る情報源としては,依然としてテレビニュース等に依るところが大きい。しかし,テレビニュースのみでは,ある事柄に関する深い情報を入手することは困難である。このため,テレビに対して直接質問して詳細な情報を検索できる対話型テレビの出現が望まれる。このような対話型テレビは,ユーザから様々な情報検索要求を受けることが想定されるが,本論文では,映像中の人物に関する情報検索に焦点を据える。対話型テレビは人間と機械との対話システムの一つであり,システム...
藤本雅清, 武田一哉, 中村哲
情報処理学会研究報告. SLP, 音声言語情報処理   2006(12) 13-18   2006年2月
本稿では, SLP雑音下音声認識評価ワーキンググループの活動成果として,自動車内における連続数字音声認識の評価用データベースCENSREC-2と,標準評価スクリプトによるベースライン評価結果について述べる.音声データの収録は,接話マイクと遠隔マイクの2種類を用いて,3種類の走行速度と4種類の車内環境を組み合わせた11種類の環境下で行っており,これらの音声データを用いた4種類の評価環境を提供する.
藤本雅清, 有木康雄, 松本宏
電子情報通信学会論文誌. D, 情報・システム   89(2) 292-304   2006年2月
本研究では,社内で製作された商品の紹介映像を対象とした,個々の商品区間へ分割するとともに商品名を索引として付与するシステムを提案する.本研究におけるシステムでは,商品紹介映像に含まれる音声を認識することにより抽出された重要単語(商品名)を用いて,映像の分割と索引の付与を行う.音声認識により商品名を抽出するには,音声認識用の辞書に商品名が事前に登録されている必要がある.しかし多くの場合,対象としている映像にどのような商品が含まれているかということは事前には未知である.このため本研究では,映像...
藤本雅清, 中村哲
情報処理学会研究報告. SLP, 音声言語情報処理   2005(127) 7-12   2005年12月
本研究では, パーティクルフィルタを用いた非定常雑音の逐次推定法及び抑圧法を提案し, 従来法と比較して非定常雑音下での音声認識性能改善に効果的である事を示す.提案手法では, パーティクルフィルタの根幹に相当する状態空間モデルをPolyak averagingとfeedbackにより定義しており, さらにswitching dynamical systemへと拡張することによって, 非定常雑音の時間変動をより効果的に表現する.このような状態空間モデルを導入することにより, 非定常雑音環境下に...
中村哲, 武田一哉, 黒岩眞吾, 北岡教英, 山田武志, 山本一公, 西浦敬信, 佐宗晃, 水町光徳, 宮島千代美, 藤本雅清, 遠藤俊樹, 滝口哲也
情報処理学会研究報告. SLP, 音声言語情報処理   2005(127) 139-144   2005年12月
現在の音声認識は, 実使用環境に存在する雑音などの外的要因により性能劣化を免れない.このため, これまで数々の研究が行われてきた.しかしながら, 異なるタスク, 異なる評価データが用いられてきたため性能の比較が非常に困難であった.このため, 情報処理学会音声言語情報処理研究会の下に雑音下音声認識評価のワーキンググループを2001年10月に組織し、評価用標準コーパス、標準バックエンドの作成、配布を行ってきた。本稿では, 本活動の現状と今後の予定, 狙いについて述べる.
藤本雅清, 武田一哉, 中村哲
情報処理学会研究報告. SLP, 音声言語情報処理   2005(127) 145-146   2005年12月
本稿では, SLP雑音下音声認識評価ワーキンググループの活動成果として, 自動車内における連続数字音声認識の評価用データベースCENSREC-2と, 標準評価スクリプトによるベースライン評価結果について述べる.音声データの収録は, 接話マイクと遠隔マイクの2種類を用いて, 3種類の走行速度と4種類の車内環境を組み合わせた11種類の環境下で行っており, これらの音声データを用いた4種類の評価環境を提供する.
中村哲, 武田一哉, 黒岩眞吾, 北岡教英, 山田武志, 山本一公, 西浦敬信, 佐宗晃, 水町光徳, 宮島千代美, 藤本雅清, 遠藤俊樹, 滝口哲也
電子情報通信学会技術研究報告. SP, 音声   105(496) 49-54   2005年12月
現在の音声認識は, 実使用環境に存在する雑音などの外的要因により性能劣化を免れない.このため, これまで数々の研究が行われてきた.しかしながら, 異なるタスク, 異なる評価データが用いられてきたため性能の比較が非常に困難であった.このため, 情報処理学会音声言語情報処理研究会の下に雑音下音声認識評価のワーキンググループを2001年10月に組織し、評価用標準コーパス、標準バックエンドの作成、配布を行ってきた。本稿では, 本活動の現状と今後の予定, 狙いについて述べる.
藤本雅清, 武田一哉, 中村哲
電子情報通信学会技術研究報告. SP, 音声   105(496) 55-56   2005年12月
本稿では, SLP雑音下音声認識評価ワーキンググループの活動成果として, 自動車内における連続数字音声認識の評価用データベースCENSREC-2と, 標準評価スクリプトによるベースライン評価結果について述べる.音声データの収録は, 接話マイクと遠隔マイクの2種類を用いて, 3種類の走行速度と4種類の車内環境を組み合わせた11種類の環境下で行っており, これらの音声データを用いた4種類の評価環境を提供する.
中村哲, 武田一哉, 黒岩眞吾, 北岡教英, 山田武志, 山本一公, 西浦敬信, 佐宗晃, 水町光徳, 宮島千代美, 藤本雅清, 遠藤俊樹, 滝口哲也
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション   105(494) 49-54   2005年12月
現在の音声認識は, 実使用環境に存在する雑音などの外的要因により性能劣化を免れない.このため, これまで数々の研究が行われてきた.しかしながら, 異なるタスク, 異なる評価データが用いられてきたため性能の比較が非常に困難であった.このため, 情報処理学会音声言語情報処理研究会の下に雑音下音声認識評価のワーキンググループを2001年10月に組織し、評価用標準コーパス、標準バックエンドの作成、配布を行ってきた。本稿では, 本活動の現状と今後の予定, 狙いについて述べる.
藤本雅清, 武田一哉, 中村哲
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション   105(494) 55-56   2005年12月
本稿では, SLP雑音下音声認識評価ワーキンググループの活動成果として, 自動車内における連続数字音声認識の評価用データベースCENSREC-2と, 標準評価スクリプトによるベースライン評価結果について述べる.音声データの収録は, 接話マイクと遠隔マイクの2種類を用いて, 3種類の走行速度と4種類の車内環境を組み合わせた11種類の環境下で行っており, これらの音声データを用いた4種類の評価環境を提供する.
藤本雅清, 中村哲
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション   105(493) 7-12   2005年12月
本研究では, パーティクルフィルタを用いた非定常雑音の逐次推定法及び抑圧法を提案し, 従来法と比較して非定常雑音下での音声認識性能改善に効果的である事を示す.提案手法では, パーティクルフィルタの根幹に相当する状態空間モデルをPolyak averagingとfeedbackにより定義しており, さらにswitching dynamical systemへと拡張することによって, 非定常雑音の時間変動をより効果的に表現する.このような状態空間モデルを導入することにより, 非定常雑音環境下に...
藤本雅清, 中村哲
電子情報通信学会技術研究報告. SP, 音声   105(495) 7-12   2005年12月
本研究では, パーティクルフィルタを用いた非定常雑音の逐次推定法及び抑圧法を提案し, 従来法と比較して非定常雑音下での音声認識性能改善に効果的である事を示す.提案手法では, パーティクルフィルタの根幹に相当する状態空間モデルをPolyak averagingとfeedbackにより定義しており, さらにswitching dynamical systemへと拡張することによって, 非定常雑音の時間変動をより効果的に表現する.このような状態空間モデルを導入することにより, 非定常雑音環境下に...
藤本雅清, 中村哲
情報処理学会研究報告. SLP, 音声言語情報処理   2005(69) 55-60   2005年7月
本研究では, パーティクルフィルタを用いた非定常雑音の逐次推定法及び抑圧法を提案し, 従来法と比較して非定常雑音下での音声認識性能改善に効果的である事を示す.提案手法において, 非定常雑音は再サンプリング法を含むパーティクルフィルタ及びマルコフ連鎖モンテカルロ法を通じて逐次推定され, クリーン音声は推定された非定常雑音をMMSE推定に基づく雑音抑圧法に適用することにより得られる.また, パーティクルフィルタで用いる状態空間モデルにPolyak averagingとfeedbackを導入する...
藤本雅清, 有木康雄
電子情報通信学会論文誌. D-II, 情報・システム, II-パターン処理   88(7) 1093-1102   2005年7月
本研究では, GMMとEMアルゴリズムを用いた加法性雑音及び乗法性ひずみの抑圧法を提案し, AURORA3と呼ばれる実走行車内音声データベースによる評価を行う.Seguraらにより提案されたGMMに基づく雑音抑圧法は, 加法性雑音のみを考慮しており, 空間伝達特性等の乗法性ひずみへの対応がなされていないという問題があった.そこで本研究では, Seguraらの方法にEMアルゴリズムによる乗法性ひずみの推定法を加えた, 加法性雑音, 乗法性ひずみ双方に対応した雑音抑圧法を提案する.また従来法で...
藤本 雅清, 中村 哲
日本音響学会研究発表会講演論文集   2005(1) 113-114   2005年3月
藤本 雅清, 中村 哲, 武田 一哉, 黒岩 眞吾, 山田 武志, 北岡 教英, 山本 一公, 水町 光徳, 西浦 敬信, 佐宗 晃, 宮島 千代美, 遠藤 俊樹
日本音響学会研究発表会講演論文集   2005(1) 143-144   2005年3月
NAKAMURA Satoshi, TAKEDA Kazuya, YAMAMOTO Kazumasa, YAMADA Takeshi, KUROIWA Shingo, KITAOKA Norihide, NISHIURA Takanobu, SASOU Akira, MIZUMACHI Mitsunori, MIYAJIMA Chiyomi, FUJIMOTO Masakiyo, ENDO Toshiki
IEICE transactions on information and systems   E88-D(3) 535-544   2005年3月
This paper introduces an evaluation framework for Japanese noisy speech recognition named AURORA-2J. Speech recognition systems must still be improved to be robust to noisy environments, but this improvement requires development of the standard ev...
藤本雅清, 中村哲, 武田一哉, 黒岩眞吾, 山田武志, 北岡教英, 山本一公, 水町光徳, 西浦敬信, 佐宗晃, 宮島千代美, 遠藤俊樹
情報処理学会研究報告. SLP, 音声言語情報処理   2005(12) 41-46   2005年2月
本稿では, SLP雑音下音声認識評価ワーキンググループの活動成果として, 自動車内音声認識の評価用データベースCENSREC-3と, 標準評価スクリプトによるベースライン評価結果について述べる.CENSREC-3の音声認識タスクは, 実走行車内での孤立単語音声認識であり, 音声データの収録は, 接話マイクロホンと遠隔マイクロホンの2種類を用いて, 3種類の走行速度と6種類の車内環境を組み合わせた16種類の環境下で行っている.CENSREC-3では, これら様々な環境したで収録された音声デー...
藤本雅清, 有木康雄
電子情報通信学会論文誌. D-II, 情報・システム, II-パターン処理   88(2) 250-265   2005年2月
本研究では, GMMに基づく音声信号推定法と, 時間領域SVDに基づく音声強調法を併用した雑音に頑健な音声認識手法を提案する.従来のGMMに基づく音声信号推定法には, 雑音の時間変動を考慮していないという問題と, 低SNR環境での性能劣化という問題があった.1点目の問題に関して本研究では, 雑音の時間変動に追随して, 雑音の平均ベクトルを逐次更新することについて検討した.また, 2点目の問題に関しては, 時間領域SVDに基づく音声強調法を用いて, 事前にSNRを改善させることにより性能を改...
中村哲, 武田一哉, 黒岩眞吾, 北岡教英, 山田武志, 山本一公, 西浦敬信, 佐宗晃, 水町光徳, 宮島千代美, 藤本雅清, 遠藤俊樹
情報処理学会研究報告. SLP, 音声言語情報処理   2004(131) 139-144   2004年12月
現在の音声認識は,実使用環境に存在する雑音などの外的要因により性能劣化を免れない.このため,これまで数々の研究が行われてきた.しかしながら,異なるタスク,異なる評価データが用いられてきたため性能の比較が非常に困難であった.このため,米国や欧州で種々のプロジェクトが企画された.本稿では,これらのプロジェクトと日本において著者らが進めている雑音下音声認識の評価フレームワーク構築の活動についての現状と今後の予定,狙いについて述べる.
藤本雅清, 中村哲, 武田一哉, 黒岩眞吾, 山田武志, 北岡教英, 山本一公, 水町光徳, 西浦敬信, 佐宗晃, 宮島千代美, 遠藤俊樹
情報処理学会研究報告. SLP, 音声言語情報処理   2004(131) 235-240   2004年12月
本稿では,SLP雑音下音声認識評価ワーキンググループの活動成果として,自動車内音声認識の評価用データベースCENSREC-3と,標準評価スクリプトによるベースライン評価結果について述べる.CENSREC-3は,AURORA-2Jに続く雑音下音声認識の標準評価環境であり,実走行車内での孤立単語音声認識の評価環境を提供する.音声データの収録は,接話マイクロホンと遠隔マイクロホンの2種類を用いて,3種類の走行速度と6種類の車内環境を組み合わせた16種類の環境下で行っており,これらの音声データを用...
中村哲, 武田一哉, 黒岩眞吾, 北岡教英, 山田武志, 山本一公, 西浦敬信, 佐宗晃, 水町光徳, 宮島千代美, 藤本雅清, 遠藤俊樹
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション   104(539) 49-54   2004年12月
現在の音声認識は,実使用環境に存在する雑音などの外的要因により性能劣化を免れない.このため,これまで数々の研究が行われてきた.しかしながら,異なるタスク,異なる評価データが用いられてきたため性能の比較が非常に困難であった.このため,米国や欧州で種々のプロジェクトが企画された.本稿では,これらのプロジェクトと日本において著者らが進めている雑音下音声認識の評価フレームワーク構築の活動についての現状と今後の予定,狙いについて述べる.
藤本雅清, 中村哲, 武田一哉, 黒岩眞吾, 山田武志, 北岡教英, 山本一公, 水町光徳, 西浦敬信, 佐宗晃, 宮島千代美, 遠藤俊樹
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション   104(539) 145-150   2004年12月
本稿では,SLP雑音下音声認識評価ワーキンググループの活動成果として,自動車内音声認識の評価用データベースCENSREC-3と,標準評価スクリプトによるベースライン評価結果について述べる.CENSREC-3は,AURORA-2Jに続く雑音下音声認識の標準評価環境であり,実走行車内での孤立単語音声認識の評価環境を提供する.音声データの収録は,接話マイクロホンと遠隔マイクロホンの2種類を用いて,3種類の走行速度と6種類の車内環境を組み合わせた16種類の環境下で行っており,これらの音声データを用...
中村哲, 武田一哉, 黒岩眞吾, 北岡教英, 山田武志, 山本一公, 西浦敬信, 佐宗晃, 水町光徳, 宮島千代美, 藤本雅清, 遠藤俊樹
電子情報通信学会技術研究報告. SP, 音声   104(542) 49-54   2004年12月
現在の音声認識は,実使用環境に存在する雑音などの外的要因により性能劣化を免れない.このため,これまで数々の研究が行われてきた.しかしながら,異なるタスク,異なる評価データが用いられてきたため性能の比較が非常に困難であった.このため,米国や欧州で種々のプロジェクトが企画された.本稿では,これらのプロジェクトと日本において著者らが進めている雑音下音声認識の評価フレームワーク構築の活動についての現状と今後の予定,狙いについて述べる.
藤本雅清, 中村哲, 武田一哉, 黒岩眞吾, 山田武志, 北岡教英, 山本一公, 水町光徳, 西浦敬信, 佐宗晃, 宮島千代美, 遠藤俊樹
電子情報通信学会技術研究報告. SP, 音声   104(542) 145-150   2004年12月
本稿では,SLP雑音下音声認識評価ワーキンググループの活動成果として,自動車内音声認識の評価用データベースCENSREC-3と,標準評価スクリプトによるベースライン評価結果について述べる.CENSREC-3は,AURORA-2Jに続く雑音下音声認識の標準評価環境であり,実走行車内での孤立単語音声認識の評価環境を提供する.音声データの収録は,接話マイクロホンと遠隔マイクロホンの2種類を用いて,3種類の走行速度と6種類の車内環境を組み合わせた16種類の環境下で行っており,これらの音声データを用...
有木康雄, 緒方淳, 藤本雅清, 塚田清志
電子情報通信学会論文誌. D-II, 情報・システム, II-パターン処理   87(6) 1208-1215   2004年6月
本研究では,野球のラジオ実況中継音声からハイライトシーンを検出するために,大語彙連続音声認識を行い,インデックス情報(キーワード)を抽出することを目的としている.音声認識部をより頑健にするために,音響モデルでは,MLLR+MAP適応による教師あり,教師なしの2段階適応を提案している.この音響モデルの適応により,アナウンサーの話者性や収録環境に適応することができ,ベースラインに比べ単語正解精度で約28%の改善が得られた.言語モデルでは,言語モデルの融合による適応と,選手名や解説者名のクラス化...
藤本雅清, 有木康雄
情報処理学会研究報告. SLP, 音声言語情報処理   2003(124) 25-30   2003年12月
本研究では,GMMとEMアルゴリズムを用いた加算性雑音と乗法性歪みの抑圧法を提案し,AURORA3と呼ばれる実走行車内音声データベースによる評価を行った.また従来,単一正規分布を基に定式化されていたカルマンフィルタを混合分布型に拡張し,クリーン音声の時間変動と多様性を考慮した,音声信号推定法についても検討を行った.提案手法をAURORA3データベースを用いて評価した結果,AURORA3データベースに含まれる全ての雑音環境において,認識率の改善が得られた.
山田武志, 武田一哉, 北岡教英, 藤本雅清, 黒岩眞吾, 山本一公, 西浦敬信, 佐宗晃, 水町光徳, 遠藤俊樹, 中村哲
情報処理学会研究報告. SLP, 音声言語情報処理   2003(124) 103-108   2003年12月
本稿では,分散型音声認識のための標準フロントエンドであるETSI ES201 (WI007)とETSI ES202 (WI008)の性能をAURORA-2Jを用いて比較評価する.その際,AURORA2やAURORA-2Jで採用している平均的な認識性能を表す評価指標に加えて,話者毎の認識性能を表す評価指標を用いる.具体的には,話者毎の単語正解精度の最大値,最小値,平均値,標準偏差,話者毎の単語正解精度のヒストグラム,単語正解精度がx%以上の話者の割合である.その結果,WI008の認識性能は,...
藤本雅清, 有木康雄
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション   103(517) 25-30   2003年12月
本研究では,GMMとEMアルゴリズムを用いた加算性雑音と乗法性歪みの抑圧法を提案し,AURORA3と呼ばれる実走行車内音声データベースによる評価を行った.また従来,単一正規分布を基に定式化されていたカルマンフィルタを混合分布型に拡張し,クリーン音声の時間変動と多様性を考慮した,音声信号推定法についても検討を行った・提案手法をAURORA3データベースを用いて評価した結果,AURORA3データベースに含まれる全ての雑音環境において,認識率の改善が得られた.
藤本雅清, 有木康雄
電子情報通信学会技術研究報告. SP, 音声   103(519) 25-30   2003年12月
本研究では,GMMとEMアルゴリズムを用いた加算性雑音と乗法性歪みの抑圧法を提案し,AURORA3と呼ばれる実走行車内音声データベースによる評価を行った.また従来,単一正規分布を基に定式化されていたカルマンフィルタを混合分布型に拡張し,クリーン音声の時間変動と多様性を考慮した,音声信号推定法についても検討を行った・提案手法をAURORA3データベースを用いて評価した結果,AURORA3データベースに含まれる全ての雑音環境において,認識率の改善が得られた.
山田武志, 武田一哉, 北岡教英, 藤本雅清, 黒岩眞吾, 山本一公, 西浦敬信, 佐宗晃, 水町光徳, 遠藤俊樹, 中村哲
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション   103(517) 103-108   2003年12月
本稿では,分散型音声認識のための標準フロントエンドであるETSI ES201(WI007)とETSI ES202(WI008)の性能をAURORA-2Jを用いて比較評価する.その際,AURORA2やAURORA-2Jで採用している平均的な認識性能を表す評価指標に加えて,話者毎の認識性能を表す評価指標を用いる.具体的には,話者毎の単語正解精度の最大値,最小値,平均値,標準偏差,話者毎の単語正解精度のヒストグラム,単語正解精度がx%以上の話者の割合である.その結果,WI008の認識性能は,WI...
山田武志, 武田一哉, 北岡教英, 藤本雅清, 黒岩眞吾, 山本一公, 西浦敬信, 佐宗晃, 水町光徳, 遠藤俊樹, 中村哲
電子情報通信学会技術研究報告. SP, 音声   103(519) 103-108   2003年12月
本稿では,分散型音声認識のための標準フロントエンドであるETSI ES201(WI007)とETSI ES202(WI008)の性能をAURORA-2Jを用いて比較評価する.その際,AURORA2やAURORA-2Jで採用している平均的な認識性能を表す評価指標に加えて,話者毎の認識性能を表す評価指標を用いる.具体的には,話者毎の単語正解精度の最大値,最小値,平均値,標準偏差,話者毎の単語正解精度のヒストグラム,単語正解精度がx%以上の話者の割合である.その結果,WI008の認識性能は,WI...
Fujimoto Masakiyo, Doshita Ariki, Doshita Shuji
Acoustical science and technology   24(6) 379-381   2003年11月
藤本雅清, 有木康雄
情報処理学会研究報告. SLP, 音声言語情報処理   2003(75) 83-88   2003年7月
本研究では,Seguraらにより提案されたGMMに基づく音声信号推定法を改良し,AURORA3と呼ばれる実走行車内音声データベースによる評価を行った.Seguraらの方法では,加算性雑音のみを考慮しており,空間伝達特性等の乗法性歪みへの対応がなされていないという問題があった.そこで本研究では,Seguraらの方法にEMアルゴリズムによる乗法性歪みの推定法を加えた,加算性雑音,乗法性歪み双方に対応した雑音除去法を提案する.また,Seguraらの方法では,音声区間,無音区間を区別せずに学習した...
山田武志, 岡田治郎, 武田一哉, 北岡教英, 藤本雅清, 黒岩眞吾, 山本一公, 西浦敬信, 水町光徳, 中村哲
情報処理学会研究報告. SLP, 音声言語情報処理   2003(75) 95-100   2003年7月
様々な雑音条件下でロバストな音声認識を実現するためには,複数の雑音抑圧手法の統合が有効であると考えられる.本稿では,4つの雑音抑圧手法(時間方向スムージングを用いたスペクトルサブトラクション法,時間領域SVDに基づく音声強調,GMMに基づく音声信号推定,ピッチ同期KLT)とそれらの組合せの有効性を,AURORA-2Jを用いて調べた.その結果,雑音条件によって最適な手法・組合せは異なっており,雑音条件に適したものを適宜選択することにより,認識性能を大幅に改善できることが明らかとなった.また,...
山本一公, 中村哲, 武田一哉, 黒岩眞吾, 北岡教英, 山田武志, 水町光徳, 西浦敬信, 藤本雅清
情報処理学会研究報告. SLP, 音声言語情報処理   2003(75) 101-106   2003年7月
本稿では,SLP雑音下音声認識評価ワーキンググループの活動成果として,雑音下音声認識評価用共通データベースAURORA-2Jと,その標準評価スクリプトによるベースライン評価結果について述べる.AURORA-2Jは,AURORAプロジェクトのAURORA-2データベースの日本語版として設計され,標準評価スクリプトもAURORA-2で配布されているスクリプトをベースとして開発されている.この共通評価フレームワークにより,各機関における雑音環境下音声認識手法の性能を容易に比較することが可能となり...
熊野雅仁, 神崎伸夫, 藤本雅清, 有木康雄, 塚田清志, 濱口伸, 清瀬基
電子情報通信学会技術研究報告. IE, 画像工学   103(205) 27-34   2003年7月
野球中継中のハイライトシーン映像を外出中の野球ファンヘ自動配信することを目的とした場合、リアルタイム内で処理可能なハイライトシーン検出法が必要となる.この問題を解決するためには、映像のディジタル化の処理を始めとして,映像解析・メタ情報の付与,ハイライトシーンの自動編集を自動的にリアルタイム内でオンラfレ処理することが必要となる.本研究では、音声認識技術と高速な映像解析技術を統合することにより、野球中継映像中のハイライトシーンをリアルタイム内で自動的に抽出するシステムの部分システムとして,P...
熊野雅仁, 神崎伸夫, 藤本雅清, 有木康雄, 塚田清志, 濱口伸, 清瀬基
電子情報通信学会技術研究報告. MVE, マルチメディア・仮想環境基礎   103(209) 27-34   2003年7月
野球中継中のハイライトシーン映像を外出中の野球ファンヘ自動配信することを目的とした場合,リアルタイム内で処理可能なハイライトシーン検出法が必要となる.この問題を解決するためには,映像のディジタル化の処理を始めとして,映像解析・メタ情報の付与,ハイライトシーンの自動編集を自動的にリアルタイム内でオンライン処理することが必要となる.本研究では,音声認識技術と高速な映像解析技術を統合することにより野球中継映像中のハイライトシーンをリアルタイム内で自動的に抽出するシステムの部分システムとして,PC...
熊野雅仁, 神崎伸夫, 藤本雅清, 有木康雄, 塚田清志, 濱口伸, 清瀬基
電子情報通信学会技術研究報告. PRMU, パターン認識・メディア理解   103(207) 27-34   2003年7月
野球中継中のハイライトシーン映像を外出中の野球ファンへ自動配信することを目的とした場合,リアルタイム内で処理可能なハイライトシーン検出法が必要となる.この問題を解決するためには,映像のディジタル化の処理を始めとして,映像解析・メタ情報の付与,ハイライトシーンの自動編集を自動的にリアルタイム内でオンライン処理することが必要となる.本研究では,音声認識技術と高速な映像解析技術を統合することにより,野球中継映像中のハイライトシーンをリアルタイム内で自動的に抽出するシステムの部分システムとして,P...
藤本 雅清, 有木 康雄
日本音響学会研究発表会講演論文集   2003(1) 51-52   2003年3月
金子 剛志, 重森 猛, 緒方 淳, 藤本 雅清, 有木 康雄, 塚田 清志, 濱口 伸, 清瀬 基
日本音響学会研究発表会講演論文集   2003(1) 189-190   2003年3月
藤本雅清, 有木康雄
情報処理学会研究報告. SLP, 音声言語情報処理   2003(14) 7-12   2003年2月
本研究では時間領域SVDに基づく音声強調法と,GMMに基づく音声信号推定法を併用した雑音に頑健な音声認識手法を提案する.GMMに基づく音声信号推定法において最も大きな問題点は,雑音の平均ベクトルの推定問題であり,本研究では,雑音の時間変動に追随して雑音の平均ベクトルを逐次更新することについて検討した.また,より高い音声認識精度を得るために,時間領域SVDに基づく音声強調法をGMMに基づく音声信号推定法の前処理として用いた.提案手法をAURORA2データベースを用いて評価した結果,全ての雑音...
中村哲, 武田一哉, 黒岩眞吾, 山田武志, 北岡教英, 山本一公, 西浦敬信, 藤本雅清, 水町光徳
情報処理学会研究報告. SLP, 音声言語情報処理   2003(14) 51-55   2003年2月
本稿では,2001年10月に音声言語情報処理研究会内に設立した雑音下音声認識に関するワーキンググループの活動状況の報告を行う.このワーキンググループでは,雑音下音声認識の評価のための共通のコーパスの策定,および収録,その評価法の検討を進めている.現在までに行ったデータベース収集、評価系の構築について経過報告を行う.
重森猛, 金子剛志, 緒方淳, 藤本雅清, 有木康雄, 塚田清志, 濱口伸, 清瀬基
電子情報通信学会技術研究報告. SP, 音声   102(618) 33-40   2003年1月
本研究では、野球のラジオ実況中継音声に対して大語彙連続音声認識を行い、キーワードを抽出してハイライトシーンを検出することを目的としている。音声認織部をより頑健にするために、音響モデルでは、MLLR+MAP適応による教師あり、教師なし適応を行っている。この音響モデルの2段階適応を用いることにより、アナウンサーの話者性に適応することができ、ベースラインに比べ単語正解精度で約28%の改善が得られた。言語モデルでは、言語モデルの融合、選手名のクラス化、発音辞書の修正を行い、ベースラインに比べ単語正...
藤本雅清, 有木康雄
情報処理学会研究報告. SLP, 音声言語情報処理   2002(121) 25-30   2002年12月
本研究では,時間領域SVDとGMMに基づく音声信号推定法を用いた雑音に頑健な音声認識手法を提案する。本手法の主となる部分には,GMMに基づく音声信号推定法を用いている.GMMに基づく音声信号推定法において最も大きな問題点は,雑音の平均ベクトルの推定問題であり,本研究では,雑音の時間変動に追随して雑音の平均ベクトルを逐次更新することについて検討した.また,より高い音声認識精度を得るために,時間領域SVDによる音声強調手法をGMMに基づく音声信号推定法の前処理として用いた.さらに,時間領域SV...
藤本雅清, 有木康雄
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション   102(527) 25-30   2002年12月
本研究では,時間領域SVDとGMMに基づく音声信号推定法を用いた雑音に頑健な音声認識手法を提案する.本手法の主となる部分には,GMMに基づく音声信号推定法を用いている.GMMに基づく音声信号推定法において最も大きな問題点は,雑音の平均ベクトルの推定問題であり,本研究では,雑音の時間変動に追随して雑音の平均ベクトルを逐次更新することについて検討した.また,より高い音声認識精度を得るために,時間領域SVDによる音声強調手法をGMMに基づく音声信号推定法の前処理として用いた.さらに,時間領域SV...
藤本雅清, 有木康雄
電子情報通信学会技術研究報告. SP, 音声   102(529) 25-30   2002年12月
本研究では,時間領域SVDとGMMに基づく音声信号推定法を用いた雑音に頑健な音声認識手法を提案する.本手法の主となる部分には,GMMに基づく音声信号推定法を用いている.GMMに基づく音声信号推定法において最も大きな問題点は,雑音の平均ベクトルの推定問題であり,本研究では,雑音の時間変動に追随して雑音の平均ベクトルを逐次更新することについて検討した.また,より高い音声認識精度を得るために,時間領域SVDによる音声強調手法をGMMに基づく音声信号推定法の前処理として用いた.さらに,時間領域SV...
井上 徹, 藤本 雅清, 山本 夏夫, 有木 康雄, 熊野 雅仁, 堂下 修司
情報科学技術フォーラム一般講演論文集   2002(3) 487-488   2002年9月
藤本雅清, 有木康雄
情報処理学会研究報告. SLP, 音声言語情報処理   2002(65) 71-76   2002年7月
本研究では,雑音除去法と音響モデル適応法を併用した,雑音に頑健な音声認識法を提案し,AURORA2タスクでの評価を行った.雑音除去手法には二つの方法を用いており,一つは短時間フレーム及び周波数帯域ごとに雑音スペクトルの減算量を変化させる,帯域分割型適応スペクトルサブトラクション(ASBSS)法であり,もう一方はASBSS法により得られた音声スペクトルをカルマンフィルタにより再推定する方法である.本研究では,これら二つの方法を併用することにより,精度良く音声スペクトルを推定することについて検...
中村哲, 武田一哉, 黒岩眞吾, 山田武志, 北岡教英, 山本一公, 西浦敬信, 藤本雅清, 水町光徳
情報処理学会研究報告. SLP, 音声言語情報処理   2002(65) 65-69   2002年7月
本稿では,2001年10月に音声言語情報処理研究会内に設立した雑音下音声認識の評価に関するワーキンググループの活動状況の報告を行う.このワーキンググループでは,雑音下音声認識に於ける評価法,共通のコーパスの策定に加えて,欧州で進められているETSIAURORA雑音下音声認識アルゴリズム開発プロジェクトに合わせたアルゴリズム開発を目指している.
藤本 雅清, 山本 夏夫, 有木 康雄
言語・音声理解と対話処理研究会   35(0) 7-13   2002年6月
藤本雅清, 有木康雄
電子情報通信学会技術研究報告. SP, 音声   102(35) 13-18   2002年4月
本研究では,対話型テレビのフロントエンドシステムとして,ハンズフリー音声認識システムを検討した.対話型テレビとは,機械との対話システムの一つであり,ニュース放送等において,ユーザーが興味のある情報をテレビに向かって問い合わせることにより,情報検索を行うことのできるシステムである.機械との自然な対話を行うためには,マイクロフォンを意識しない,ハンズフリー音声認識が必要となる.本研究におけるシステムでは,マイクロフォンアレイによって話者方向を推定し,ビームフォーミングを行っている.また,入力音...
藤本雅清, 有木康雄
電子情報通信学会技術研究報告. EA, 応用音響   102(33) 13-18   2002年4月
本研究では,対話型テレビのフロントエンドシステムとして,ハンズフリー音声認識システムを検討した.対話型テレビとは,機械との対話システムの一つであり,ニュース放送等において,ユーザーが興味のある情報をテレビに向かって問い合わせることにより,情報検索を行うことのできるシステムである.機械との自然な対話を行うためには,マイクロフォンを意識しない,ハンズフリー音声認識が必要となる.本研究におけるシステムでは,マイクロフォンアレイによって話者方向を推定し,ビームフォーミング孝行っている.また,入力音...
藤本 雅清, 有木 康雄, 松本 宏
日本音響学会研究発表会講演論文集   2002(1) 143-144   2002年3月
藤本雅清, 有木康雄
電子情報通信学会論文誌. D-II, 情報・システム, II-パターン処理   85(1) 1-11   2002年1月
本研究では, 雑音環境下における音声認識の前処理として, カルマンフィルタによる音声信号推定法を提案する.従来, カルマンフィルタは膨大な計算量を要するため, 実時間向けの処理には不向きであった.そこで本研究では, カルマンフィルタの計算量を削減して, 高速演算することにより, 実時間向けの音声信号推定法を提案する.提案手法の評価のために雑音重畳音声から抽出された音声信号を用いて単語認識実験を行い, 従来のSpectral Subtraction法及びParallel Model Comb...
藤本雅清, 有木康雄
情報処理学会研究報告. SLP, 音声言語情報処理   2001(123) 57-62   2001年12月
本研究では, 我々がこれまでに提案した雑音に頑健な音声認識手法(カルマンフィルタによる音声信号推定法と繰り返し教師無しMLLR適応の併用)に加えて, 頑健な特徴量を導入することについて検討を行った.雑音に頑健な特徴量として, Root Cepstrum係数を用いており, 音声認識に従来用いられてきたMFCCとの音声認識結果の比較を行った.また, 本研究では, MLLR適応を行う際の音素クラスタ数の選択についても検討を行った.提案手法の評価は, 3種類の音楽が重畳した音声を用いた大語彙連続音...
藤本雅清, 有木康雄
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション   101(520) 57-62   2001年12月
本研究では, 我々がこれまでに提案した雑音に頑健な音声認識手法(カルマンフィルタによる音声信号推定法と繰り返し教師無しMLLR適応の併用)に加えて, 頑健な特徴量を導入することについて検討を行った.雑音に頑健な特徴量として, Root Cepstrum係数を用いており, 音声認識に従来用いられてきたMFCCとの音声認識結果の比較を行った.また, 本研究では, MLLR適応を行う際の音素クラスタ数の選択についても検討を行った.提案手法の評価は, 3種類の音楽が重畳した音声を用いた大語彙連続音...
藤本雅清, 有木康雄
電子情報通信学会技術研究報告. SP, 音声   101(522) 57-62   2001年12月
本研究では, 我々がこれまでに提案した雑音に頑健な音声認識手法(カルマンフィルタによる音声信号推定法と繰り返し教師無しMLLR適応の併用)に加えて, 頑健な特徴量を導入することについて検討を行った.雑音に頑健な特徴量として, Root Cepstrum係数を用いており, 音声認識に従来用いられてきたMFCCとの音声認識結果の比較を行った.また, 本研究では, MLLR適応を行う際の音素クラスタ数の選択についても検討を行った.提案手法の評価は, 3種類の音楽が重畳した音声を用いた大語彙連続音...
藤本 雅清, 三島 崇志, 有木 康雄
研究会講演予稿   190(0) 9-14   2001年11月
藤本 雅清, 有木 康雄
日本音響学会研究発表会講演論文集   2001(2) 35-36   2001年10月
藤本 雅清, 三島 崇志, 有木 康雄, 松本 宏
電子情報通信学会ソサイエティ大会講演論文集   2001(0)    2001年8月
藤本雅清, 鷹尾誠一, 有木康雄, 松本宏
情報処理学会研究報告. SLP, 音声言語情報処理   2001(68) 49-54   2001年7月
本研究では、社内で製作された商品の紹介映像を個々の商品区間へ分割(トピックセグメンテーション)し, 商品名をインデックスして付与するシステムの検討を行った.本研究におけるシステムでは, 商品紹介映像の音声から音楽などの雑音を除去した後にキーワードスポッティングを行い, 抽出された商品名を用いてトピックセグメンテーションを行っている.また, キーワードスポッティングにより商品名を抽出するためには, 商品名辞書が必要となるが, 本研究では, 商品名辞書が事前に存在していない場合に, 映像中のテ...
藤本雅清, 有木康雄
電子情報通信学会技術研究報告. SP, 音声   101(155) 7-14   2001年6月
本研究では,カルマンフィルタによる音声信号推定法と繰り返し教師無しMLLR適応を用いた,非定常雑音下での音声認識手法を提案する.提案手法では,音声の時間変化モデルをカルマンフィルタによる推定問題に適用することにより,音楽等のような非定常雑音が重畳した音声から,クリーンな音声信号を推定している.音声の時間変化モデルは,雑音重畳音声におけるクリーン音声の時間変動を,Taylor展開を用いることにより表現したモデルであり,モデルの構成に必要なパラメータの1つである雑音の変動成分は,線形予測法によ...
井上徹, 西田昌史, 藤本雅清, 有木康雄
電子情報通信学会技術研究報告. SP, 音声   101(86) 1-6   2001年5月
声質変換では、音声中に含まれている音韻性と話者性を分離することができれば、読者性を変換することで目的話者に近い音声が得られると考えられる。本研究では、部分空間法によって話者毎に話者空間と音韻空間を設計し、元話者と目的話者の闇で話者空間を人れ替える。次に音韻空間に対しては、元話者の音韻空間を用いることで元話者から目的話者に変換を行う。この提案手法の評価のために、混合分布モデルのみを用いた変換法と比較を行った。その結果、提案手法は、混合分布モデルを用いた変換法よりもよい主観評価を得ることができた。
藤本 雅清, 有木 康雄
日本音響学会研究発表会講演論文集   2001(1) 73-74   2001年3月

担当経験のある科目