山本 一公

J-GLOBALへ         更新日: 17/07/25 11:29
 
アバター
研究者氏名
山本 一公
 
ヤマモト カズマサ
所属
中部大学
部署
工学部 情報工学科
職名
准教授
学位
博士(工学)(豊橋技術科学大学)

プロフィール

音声言語情報処理の研究、特に頑健な音声認識に関して、音響特徴量や音響モデルに関する研究をしています。また、発展的な研究として雑談音声対話システムの開発を行っています。

研究分野

 
 

経歴

 
2017年4月
 - 
現在
中部大学 工学部 情報工学科 准教授
 
2013年4月
 - 
2014年3月
豊田工業高等専門学校 情報工学科 准教授
 
2013年3月
 - 
2017年3月
豊橋技術科学大学 大学院工学研究科 情報・知能工学系 准教授
 
2012年2月
 - 
2012年9月
カーネギーメロン大学 電気情報工学科 訪問研究員
 
2010年4月
 - 
2013年2月
豊橋技術科学大学 大学院工学研究科 情報・知能工学系 助教
 
2007年4月
 - 
2010年3月
豊橋技術科学大学 工学部 情報工学系 助教
 
2000年4月
 - 
2007年3月
信州大学 工学部 電気電子工学科 助手
 

論文

 
北岡 教英, 矢野 浩利, 杉本 夏樹, 山本 一公, 中川 聖一
電子情報通信学会論文誌. D, 情報・システム   95(4) 982-994   2012年4月
音声対話におけるシステムの誤認識・誤理解を,対話を通じて自然かつ効率的に暗黙に回復する対話戦略を提案する.自然かつ効率的に誤認識を回復するために,確認発話を多用しない戦略を目指す対話戦略として,各対話ターンにおいて複数の理解候補を保持し,対話を通して最適な理解を探索する.その際,理解候補を収束させる効率性の尺度と,理解候補と矛盾せず,不自然さを与えないための一貫性の尺度をシステム応答の選択に用いる.計算機シミュレーションと対話聴取による評価,及び音声対話システムを実際に被験者が使用した上で...
NAKANO Alberto Yoshihiro, NAKAGAWA Seiichi, YAMAMOTO Kazumasa
IEICE transactions on information and systems   E93-D(9) 2451-2462   2010年9月
In this work, spatial information consisting of the position and orientation angle of an acoustic source is estimated by an artificial neural network (ANN). The estimated position of a speaker in an enclosed space is used to refine the estimated t...
WANG Longbiao, MINAMI Kazue, YAMAMOTO Kazumasa, NAKAGAWA Seiichi
IEICE transactions on information and systems   E93-D(9) 2397-2406   2010年9月
In this paper, we investigate the effectiveness of phase for speaker recognition in noisy conditions and combine the phase information with mel-frequency cepstral coefficients (MFCCs). To date, almost speaker recognition methods are based on MFCCs...
藤井 康寿, 山本 一公, 北岡 教英, 中川 聖一
情報処理学会論文誌   51(3) 1094-1106   2010年3月
本論文では,大学院における講義音声を対象とした,重要文抽出に基づく自動要約手法を述べる.本論文ではまず,音声要約においてよく使われているMaximal Marginal Relevance(MMR)と識別器にSupport Vector Machine(SVM)を用いたfeature-basedを比較し,feature-basedの方が優れた結果を与えることを示す.次に,feature-basedの改善手法に関して述べる.Feature-basedの改善のために,3つのアプローチを試みた....
Nakano Alberto Yoshihiro, Nakagawa Seiichi, Yamamoto Kazumasa
Acoustical Science and Technology   31(5) 309-319   2010年
In this work, the perception of the position and orientation of a directional acoustic source in a real enclosed environment by blindfolded listeners is investigated and compared with a method that automatically estimates the position and orientat...

Misc

 
岩見 圭祐, 山本 一公, 中川 聖一
電子情報通信学会技術研究報告. SP, 音声   111(365) 25-32   2011年12月
ニュースや新聞記事のようにテキスト情報を含むものであれば既存のテキスト検索エンジンを用いることで,欲しい情報を高速に検索することができる.しかし,現在のところ音声ドキュメントに対しての有効な検索手法は確立されていない.その理由として挙げられるのが,未知語や認識誤りといった音声ドキュメント特有の問題である.我々は今までにサブワードユニットの認識結果を用いた高速なSTD手法を提案してきた.音節ラティスから置換,挿入を考慮したn-gram索引を構築し,脱落誤りを考慮したクエリで検索することで未知...
岩見 圭祐, 山本 一公, 中川 聖一
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション   111(364) 25-32   2011年12月
ニュースや新聞記事のようにテキスト情報を含むものであれば既存のテキスト検索エンジンを用いることで,欲しい情報を高速に検索することができる.しかし,現在のところ音声ドキュメントに対しての有効な検索手法は確立されていない.その理由として挙げられるのが,未知語や認識誤りといった音声ドキュメント特有の問題である.我々は今までにサブワードユニットの認識結果を用いた高速なSTD手法を提案してきた.音節ラティスから置換,挿入を考慮したn-gram索引を構築し,脱落誤りを考慮したクエリで検索することで未知...
仲野 翔一, 山本 一公, 中川 聖一
電子情報通信学会技術研究報告. SP, 音声   111(97) 23-28   2011年6月
音声認識の性能は,雑音の影響を大きく受けるため,前処理として雑音の影響を軽減する処理を行う必要がある.一般的な雑音除去手法であるスペクトルサブトラクション法やWienerフィルタは,定常的な雑音に対しては有効であるが,非定常な雑音に対しては有効でない.そこで本稿では非定常な信号である音楽が背景雑音として重畳された音楽重畳音声からの音楽除去をベクトル量子化手法と非負値行列因子分解の2つの手法で比較・検討を行う.評価実験として,孤立単語認識実験を行った.ピアノ音だけの音楽のとき,クリーン音声の...
藤井 康寿, 山本 一公, 中川 聖一
情報処理学会研究報告. SLP, 音声言語情報処理   2011(13) 1-6   2011年1月
我々は,Hidden Conditional Neural Fields(HCNF) を用いた音声認識手法について検討を進めている.本稿では,HCNFを学習するための目的関数として,正解状態系列が一意に定まらない場合においても正解状態系列に対するエラー数を考慮した学習が可能となるHidden Boosted MMI(HB-MMI) を提案する.HB-MMIを用いることで,過学習が起こりにくい状況では認識率を改善できることがわかった.本稿では,HCNFが出力する音素事後確率を次段のHCNFの...
藤井 康寿, 山本 一公, 中川 聖一
情報処理学会研究報告. SLP, 音声言語情報処理   2010(1) 1-6   2010年10月
近年,識別モデルを用いた音声認識手法が注目を集めている.特に,Hidden Conditional Randam Fields(HCRF) を用いた音声認識手法は,HMM の自然な拡張となっており,今後の発展が期待できる.HCRF は有望なモデルであるが,仮説のスコアを特徴量の重み付き線形和によって計算するため,特徴量間の非線形な関係をうまくモデル化できないという問題があった.本稿では,HCRF にゲート関数を導入することで,特徴量間の非線形な関係をモデル化することができるように拡張した ...
岩見 圭祐, 藤井 康寿, 山本 一公, 中川 聖一
情報処理学会研究報告. SLP, 音声言語情報処理   2010(3) 1-6   2010年10月
ニュースや新聞記事のようにテキスト情報を含むものであれば既存のテキスト検索エンジンを用いることで,欲しい情報を高速に検索することができる.しかし,現在のところ音声ドキュメントに対しての有効な検索手法は確立されていない.その理由として挙げられるのが,未知語や認識誤りといった音声ドキュメント特有の問題である.本研究ではこれらの問題を解決し,音声ドキュメントに対して有効な検索手法について検討する.すなわち,音声ドキュメントを音節単位の認識で音節ラティス化し,音節の置換誤り,挿入誤りを考慮した n...
田村 哲嗣, 宮島 千代美, 北岡 教英, 武田 一哉, 山田 武志, 滝口 哲也, 柘植 覚, 山本 一公, 西浦 敬信, 中山 雅人, 傳田 遊亀, 藤本 雅清, 松田 繁樹, 小川 哲司, 黒岩 眞吾, 中村 哲
情報処理学会研究報告. SLP, 音声言語情報処理   2010(7) 1-6   2010年7月
本稿では,音声と画像を用いたマルチモーダル音声認識の共通評価基盤 CENSREC-1-AV について紹介する.CENSREC-1-AV では,音声・画像データベースおよびベースラインシステムを提供する.音声は学習用クリーンデータのほか,乗用車走行雑音を付与したものを収録した.画像はカラー映像と近赤外線映像を収録し,ガンマ補正を用いて乗用車走行シミュレーション画像をテストデータとした.ベースラインシステムでは,MFCC と,固有顔ないしはオプティカルフローを特徴量として,マルチストリーム H...
山本 一公, 末吉 英一, 中川 聖一
電子情報通信学会技術研究報告. SP, 音声   110(143) 31-36   2010年7月
現在の音声認識システムでは,音声特徴量としてMFCC等の振幅スペクトルベースの特徴量が用いられており,一方で位相情報は無視されている.しかし,Liuらの行った聴覚実験の結果では,長時間分析に基づく位相スペクトルには言語的な情報が含まれていることが示唆されている.そこで,本稿では長時間分析に基づく位相特徴量を用いて音声認識を行う手法を提案する.我々は,位相特徴量として群遅延特徴を用いるが,本稿では2種類の求め方について検討する.1つは,位相スペクトル領域における周波数軸方向の傾きとして求めた...
藤井 康寿, 山本 一公, 中川 聖一
音声ドキュメント処理ワークショップ講演論文集   3(0) 133-138   2009年2月

競争的資金等の研究課題

 
文部科学省: 科学研究費補助金(基盤研究(C))
研究期間: 2012年 - 2012年    代表者: 山本 一公
文部科学省: 科学研究費補助金(挑戦的萌芽研究, 挑戦的萌芽研究, 挑戦的萌芽研究, 挑戦的萌芽研究)
研究期間: 2010年 - 2012年    代表者: 中川 聖一
監視カメラ等は犯罪防止の観点から社会に受け入れられるが、公共場所での音声や音の収録は社会的に受け入れられていない。これは音声には話者情報や言語情報などプライバシ情報を含んでいるからである。このため、収録音から音声だけを除去し背景音や環境音だけを残す技術、話者性を除去するための背景音中での声質変換技術、発話内容である言語情報から個人名等に対する音声区間の除去技術などが必要である。本年度は、音楽重量音声から音声だけを除去する二つの手法を開発した。一つはベクトル量子化法に基づく方法で、音楽重量音...
文部科学省: 科学研究費補助金(基盤研究(B))
研究期間: 2010年 - 2012年    代表者: 中川 聖一
音声情報の有効活用のためには、高精度な音声認識法、認識結果を読み易くするための音声整形法、音声要約法、大量の音声ドキュメントからの検索キーワードの高速検索法の技術開発が必要である。本年度は、現在の世界的標準となっている音声認識モデルであるHMMを包含する隠れニューラル確率場モデルによる音声認識技術を開発し、HMMと同等以上の性能を得る見込みを得た。音声認識の言語モデルに関しては、音声認識対象単語の直前の数十単語のコンテキストを用いてトピックを同定し、トピックに依存した言語モデルによる音声認...
文部科学省: 科学研究費補助金(若手研究(B))
研究期間: 2009年 - 2011年    代表者: 山本 一公
公共の場で収録される音・音声情報が有効に活用できる場面は多いと考えられるが、プライバシーの問題を感じる人が多いため、現在のところあまり利用されていない。本研究では、音・音声情報から、プライバシー情報(話者を推定し得る情報)を隠蔽することを目的として、音信号から音声・背景音を分離することでプライバシーを保護する「音声除去」、音声信号を別人の音声に変えることでプライバシーを保護する「声質変換」、音声認識することで言語的なプライバシー情報を保護する技術について検討を進めてきた。音信号から音声と背...
文部科学省: 科学研究費補助金(萌芽研究, 挑戦的萌芽研究)
研究期間: 2007年 - 2009年    代表者: 中川 聖一
遠隔発話の音声認識に関しては、H20年度とH21年度に開発した話者の位置と発声方向の同定方法を用いた認識手法を開発した。つまり、音源位置の同定に基づいて、マイクロフォンアレイのビームフォーマーによって音声を強調し、発声方向の向きの同定によって、発声語彙を推定・制限する方法により認識率を高めた。さらに、残響補正の基本的な手法であるケプストラム平均正規化法を、短時間の発声によりオンラインで適用できる技術を開発した。これは、混合ガウス分布(GMM)モデルにより音声をモデル化しておき、入力音声の各...
文部科学省: 科学研究費補助金(基盤研究(B))
研究期間: 2007年 - 2009年    代表者: 武田 一哉
実世界で雑音などにより劣化した音声の認識を目指し以下のことを行った。(1)劣化音声コーパスを整備し、CENSRECという名称で一般に利用可能とした、(2)劣化音声の認識率への影響度を測る指標を検討し、加法性・乗法性雑音に対して高精度に認識性能を予測できた、(3)劣化音声の劣化要因とその認識手法を体系化した、(4)劣化音声の認識手法を研究した。
文部科学省: 科学研究費補助金(若手研究(B))
研究期間: 2006年 - 2008年    代表者: 山本 一公
音声認識システムを使用時に誤認識が発生すると、人間であるユーザは訂正発話をゆっくりとした発話速度で行う傾向があるが、現在の音声認識システムはゆっくりした発話速度の音声の認識精度が悪いため悪循環となっている。本研究では、発話速度を自動推定し、その結果から最適な音声認識システムパラメータ(挿入ペナルティ、言語重み)を自動的に調整することでゆっくりした発話速度の音声の認識精度を大幅に改善した。
文部科学省: 科学研究費補助金(若手研究(B))
研究期間: 2004年 - 2005年    代表者: 山本 一公
本研究は、話し言葉音声における発話速度変動に頑健な音声認識を目指し、話速変化による認識率低下の抑制について、大きく分けて1.話速によるデータクラスタリングでの話速別モデルの構築。各話速別モデルを融合したモデル(HMM/BNモデル、マルチパスモデル)による各話速に対する評価。2.分析周期を変更したデータによる局所話速に対応したモデルの構築。分析周期を変更した複数モデルの認識結果統合による認識率改善手法。の2つの手法により検討を行なった。データクラスタリング話速別モデルによる検討では以下のよう...
文部科学省: 科学研究費補助金(基盤研究(C))
研究期間: 2003年 - 2004年    代表者: 松本 弘
(1)メルLPCスペクトルへの一般化対数とフォワードマスキングの適用メルLPCスペクトルについて,一般化対数の冪数γ,マスキング係数,ケプストラム平均・分散正規化の有無の影響をAURORA2データベースを用いて検討を行った.その結果,メルLPC分析では,マスキングを行わず,γ=0.1の一般化ケプストラムと一般化デルタケプストラムの特徴量にケプストラム平均及び分散正規化を行った場合に最も高い認識精度を与えることを示した.(2)メル周波数軸上のウィナーフィルタの開発聴感特性を考慮したメルLPC...
文部科学省: 科学研究費補助金(奨励研究(A), 若手研究(B))
研究期間: 2001年 - 2002年    代表者: 山本 一公
本研究では、音声の動的特徴に対するHMMの性能を改善するため、複数の連続するスペクトルを1つの特徴ベクトルとして扱うセグメント単位入力HMMを改良して用いることと、音声の動的特徴をより正確にモデル化するために音響モデルとして従来の音素より長い音節あるいは音節連鎖を用いることの2つの方法を導入した。セグメント単位入力HMMの改良では、可変長セグメントの可能性を探ったが、現在までに確固たる成果を得ることはできなかった。音素よりも長い音響モデル単位を用いる方法については、最初に音素環境依存音節モ...
文部科学省: 科学研究費補助金(基盤研究(C))
研究期間: 2000年 - 2001年    代表者: 松本 弘
1)ハンズフリー音声認識のための頑健な音響パラメータの検討ハンズフリー音声認識では,話者とマイクロホン間の相対位置の変動と残響のため認識性能が著しく劣化する.このような変動に対する頑健性を改善するため,本研究では,一般化対数スケール上のフォワードマスキングに基づく新しい特徴パラメータ,「一般化動的ケプストラム(DyMFGC)」,を検討した.始めに,提案するフォワードマスキングをメルフィルタバンクスペクトルに適用した.更に,このフォワードマスキングをメルLPCスペクトルに適用した.これはメル...