酒向 慎司

J-GLOBALへ         更新日: 17/07/21 02:52
 
アバター
研究者氏名
酒向 慎司
 
サコウ シンジ
eメール
s.sakonitech.ac.jp
URL
http://sakoweb.net
所属
名古屋工業大学
部署
大学院 おもひ領域
職名
准教授
学位
博士(工学)(名古屋工業大学)
科研費研究者番号
30396791

研究分野

 
 

経歴

 
2003年4月
 - 
2003年6月
国際電気通信基礎技術研究所 研修研究員
 
2004年4月
 - 
2007年3月
東京大学 大学院情報理工学系研究科 助手
 
2007年4月
 - 
2017年3月
名古屋工業大学 大学院 おもひ領域 助教
 
2012年6月
 - 
2012年12月
ミュンヘン工科大学 ヒューマンマシンコミュニケーション研究所 客員研究員
 
2014年7月
 - 
2014年8月
AGH科学技術大学 Faculty of Computer Science, Electronics and Telecommunications 客員研究員
 

学歴

 
1995年4月
 - 
1999年3月
名古屋工業大学 工学部 知能情報システム学科
 
2001年4月
 - 
2004年3月
名古屋工業大学 工学研究科 電子情報工学専攻
 

委員歴

 
2005年4月
 - 
2006年3月
日本VR学会大会実行委員会  実行委員
 
2005年4月
 - 
2009年3月
音声対話技術コンソーシアム  実行委員
 
2009年4月
 - 
2013年3月
電気関係学会東海支部連合大会実行委員会  実行委員
 
2009年4月
 - 
2013年3月
日本音響学会  東海支部 庶務幹事
 
2010年4月
 - 
現在
日本音響学会  査読委員
 

受賞

 
2008年8月
情報処理学会 音楽情報科学研究会 ベストプレゼンテーション賞 Orpheus--歌詞の韻律に基づく自動作曲システム
受賞者: 深山 覚, 中妻 啓, 米林 裕一郎, 酒向 慎司, 西本 卓也, 小野 順貴, 嵯峨 山茂樹
 
本稿では歌詞の韻律を用いた歌唱曲の新しい自動作曲手法を提案する。旋律を音の経路と捉え作曲を経路探索問題として定式化することで、任意の日本語の歌詞を用いた歌唱曲の自動作曲が、歌詞の韻律に基づく制約条件下での最尤経路探索問題を解くことで実現できることを示す。さらにこの作曲原理を実装した自動作曲システム "Orpheus" を用いて実際に楽曲生成を行い、作曲家による生成された楽曲に対する評価を踏まえて、今回の手法によって妥当な音楽性をもった歌唱曲が生成されたことを検証する。
2009年12月
日本音響学会東海支部 日本音響学会東海支部優秀発表賞 重奏用譜面を生成するための経路探索を用いたメロディのパート分配
受賞者: 水野 理央, 酒向 慎司, 北村 正
 
2009年12月
日本音響学会東海支部 日本音響学会東海支部優秀発表賞 HMMを用いた日変動パターンに基づく環境電磁波のモデル化と異常放射検出
受賞者: 高瀬 裕矢, 酒向 慎司, 北村 正
 
2010年3月
情報処理学会 情報処理学会山下記念研究賞 Orpheus: 歌詞の韻律に基づく自動作曲システム
受賞者: 深山 覚, 中妻 啓, 酒向 慎司, 西本 卓也, 嵯峨山 茂樹
 
本稿では歌詞の韻律を用いた歌唱曲の新しい自動作曲手法を提案する。旋律を音の経路と捉え作曲を経路探索問題として定式化することで、任意の日本語の歌詞を用いた歌唱曲の自動作曲が、歌詞の韻律に基づく制約条件下での最尤経路探索問題を解くことで実現できることを示す。さらにこの作曲原理を実装した自動作曲システム "Orpheus" を用いて実際に楽曲生成を行い、作曲家による生成された楽曲に対する評価を踏まえて、今回の手法によって妥当な音楽性をもった歌唱曲が生成されたことを検証する。
2010年3月
情報処理学会 情報処理学会全国大会学生奨励賞 単旋律のパート分配と伴奏・副旋律生成によるアンサンブルのための自動編曲手法
受賞者: 水野 理央, 酒向 慎司, 北村 正
 
アンサンブルとは、数名から十数名程度で楽譜に従い個々の楽器が様々な形で他と協調する音楽である。演奏者は、あるフレーズでは主旋律で主導し、別のフレーズでは、和音の一部やリズムを担い、他の楽器との掛け合いなどを織り交ぜて音楽を構成する。このような演奏行為がアンサンブルの本質的な醍醐味である。しかし、楽器構成の自由度の高さに対して、既存の楽譜では限られた楽器構成のものしか存在せず、また、編曲には専門的な知識を要する。自分たちで自由に編曲するための支援環境の実現は、アンサンブル演奏の楽しみ方をさら...

論文

 
Shinji Sako, Keiichi Tokuda, Takashi Masuko,Takao Kobayashi, Tadashi Kitamura
International Conference on Spoken Language Processing (ICSLP)   3 25-28   2000年10月   [査読有り]
This paper describes a technique for text-to-audio-visual speech synthesis based on hidden Markov models (HMMs), in which lip image sequences are modeled based on imageor pixel-based approach. To reduce the dimensionality of visual speech feature ...
HMMに基づいた視聴覚テキスト音声合成―画像ベースアプローチ
酒向 慎司, 徳田 恵一, 益子 貴史, 小林 隆夫, 北村 正
情報処理学会論文誌   43(7) 2169-2176   2002年8月   [査読有り]
隠れマルコフモデル(HMM)に基づき,任意の入力テキストから実画像に近い唇動画像を生成するシステムを提案する.我々がこれまでに提案してきたHMMに基づく音声合成法により,高品質なテキスト音声合成システムが実現されているが,この枠組みを,画像ベースアプローチによる唇画像生成に適用する.これによりテキストから,同期した音声と唇動画像の生成が可能であることを示す.本手法の特徴として,主成分分析によって得られる固有唇を利用して,唇パラメータの次元圧縮を行っている.合成システムでは,連結された唇動画...
Takahiro Hoshiya, Shinji Sako, Heiga Zen, Keiichi Tokuda, Takashi Masuko, Takao Kobayashi, Tadashi Kitamura
International Conference on Acoustics Speech and Signal Processing (ICASSP)   1 800-803   2003年4月   [査読有り]
In this paper, we define an F0 quantization scheme for a very low bit rate speech coder based on HMM (hidden Markov model). In the coding system, the encoder carries out phoneme recognition, and transmits phoneme indices, state durations and F0 in...
Tatsuhiko Yamaguchi, Shinji Sako, Hiroshi Yamamoto, Genichiro Kikui
IEEE workshop on Automatic Speech Recognition and Understanding (ASRU)   162-165   2003年12月   [査読有り]
This paper presents a supervised approach to combining detection and correction of speech recognition errors. For each word in a recognition result, our example-based correction algorithm generates a correction candidate by aligning the recognitio...
An HMM-based approach to speaker-dependent 100bit/s speech coding
Takahiro Hoshiya, Heiga Zen, Shinji Sako, Keiichi Tokuda, Takashi Masuko, Takao Kobayashi, Tadashi Kitamura
Special Workshop in Maui (SWIM)   267-267   2004年1月   [査読有り]

Misc

 
特集 音楽とOR―日本語歌詞からの自動作曲
嵯峨山 茂樹,中妻 啓,深山 覚,酒向 慎司,西本 卓也
オペレーションズ・リサーチ   54(9) 546-553   2009年10月   [依頼有り]
本稿では,任意の日本語テキストの持つ韻律に基づき,歌唱曲を自動作曲する手法について解説する.文学作品や自作の詩,ニュースやメールなど,あらゆる日本語テキストをそのまま歌詞として旋律を生成し,歌唱曲として出力する自動作曲システムは,手軽な作曲のツール,音楽の専門知識を持たない人のための作曲補助ツールとして有用であろう.さらに著作権問題の回避としても用途があろう.歌唱曲は歌詞との関連性が求められる.特に高低アクセントを持つ日本語では,発話音声にピッチの高低が付くため,歌詞を朗読する際の韻律と旋...
基礎講座 音声・音響インタフェース 第1回―HTSを用いた音声合成システムの構築
大浦 圭一郎, 全 炳河, 酒向 慎司, 徳田 恵一
ヒューマンインタフェース学会誌   12(1) 35-40   2010年2月   [査読有り]
隠れマルコフモデルによる手話の音韻構造に基づいた自動手話認識
酒向 慎司, 北村 正
日本福祉工学学会誌   17(2) 2-7   2015年11月
手話認識の分野では,隠れマルコフモデル(Hidden Markov Model; HMM) に基づいた手法が提案されている.また,手話の動作情報を取得する方法として身体動作を直接計測するセンサ類を用いる方法も検討されてきたが,画像から動作情報を取得することで特殊な装置を要せず,身体的拘束のない手話認識が可能である.また,これまでの手話認識の研究では主に孤立単語を対象に行われてきており,単語ごとに個別のモデルを作成する場合,語彙の増加に伴ってモデル数が増加するため非効率であり,また手話のデー...

講演・口頭発表等

 
酒向 慎司, 徳田 恵一, 益子 貴史, 小林 隆夫, 北村 正
電子情報通信学会 パターン認識・メディア理解研究会   1999年11月18日   電子情報通信学会
隠れマルコフモデル(HMM)に基づき,任意の入カテキストから実画像に近い唇動画像を生成するシステムを提案する.我々がこれまでに提案してきたHMMに基づく音声合成法により,高品質なテキスト音声合成システムが実現されているが,これと同一の枠組みを,ピクセルベースの唇画像生成に適用する.音素単位でモデル化された唇動画像HMMを連結し,尤度最大化基準によりHMMの各状態から最適な画像系列を求める.この際,静的特徴量(唇の形状)のみでなく,動的特徴量(唇の動き)を考慮することにより,なめらかに変化す...
酒向 慎司, 徳田 恵一, 益子 貴史, 小林 隆夫, 北村 正
電子情報通信学会2000年総合大会   2000年3月28日   電子情報通信学会
酒向 慎司, 徳田 恵一, 益子 貴史, 小林 隆夫, 北村 正
日本音響学会2000年秋季研究発表会   2000年9月20日   日本音響学会
川角 佳弘, 酒向 慎司, 徳田 恵一, 益子 貴史, 小林 隆夫, 北村 正
日本音響学会2001年春季研究発表会   2001年3月14日   日本音響学会
酒向 慎司, 近藤 重一, 益子 貴史, 徳田 恵一, 小林 隆夫, 北村 正
日本音響学会2001年春季研究発表会   2001年3月14日   日本音響学会

Works

 
研究用マルチモーダル音声データベース M2TINIT
その他   2003年3月
研究用マルチモーダル音声データベース M2TINIT (Multi-Modal Speech Database by Tokyo Institute of Technology and Nagoya Institute of Technology) は、マルチモーダル音声研究の推進のため、東京工業大学大学院院総合理工学研究科 小林隆夫研究室および名古屋工業大学知能情報システム学科 北村・徳田研究室が開発・公開する音声・唇動画像同時収録データベースです。これまでに音声・唇動画像の生成やバイモ...
HMM-based Speech Synthesis System (HTS) version 2.1.1
コンピュータソフト   2010年5月
自動作曲システムOrpheus ver.2.1
コンピュータソフト   2011年4月
Speech Signal Processing Toolkit (SPTK) version 3.5
コンピュータソフト   2011年12月
Open JTalk version 1.05
コンピュータソフト   2011年12月

競争的資金等の研究課題

 
多彩な歌唱表現を自動学習する制御性に優れた歌唱音声合成システムの研究
日本学術振興会: 科学研究費助成事業
研究期間: 2009年4月 - 2012年3月    代表者: 酒向 慎司
統計モデルに基づく手話動作のサブユニットモデル自動生成と大語彙連続手話認識
日本学術振興会: 科学研究費助成事業
研究期間: 2010年4月 - 2013年3月    代表者: 北村 正
ユーザーの嗜好と利用シーンの変動に対応可能な統計モデルに基づいた楽曲からの感性推定モデルの研究
科学技術振興機構 研究成果最適展開支援事業(A-STEP)FSステージ: 受託研究(一般受託研究)
研究期間: 2011年8月 - 2012年3月    代表者: 酒向 慎司
音楽から受ける印象を楽曲の電子データから直接推定する印象推定システムにおいて、個人の嗜好や感性の違いに対応するため、性別や音楽経験などからなるプロフィールを利用する新たな手法を開発した。この手法の特徴として、印象推定モデルを学習するための音楽を聴いたときの印象データを事前に収集する必要がなく、他者の印象推定モデルから、特定の利用者に合った(類似した)モデルをプロフィールの情報に基づいて自動選択することができる。また、音楽を聴いた際の印象データを短期間で効率的に収集するため、Webブラウザを...
手指動作と非手指動作のサブユニットモデルに基づく手話認識に関する研究
日本学術振興会: 科学研究費助成事業
研究期間: 2013年4月 - 2016年3月    代表者: 北村 正
多様な利用形態に柔軟に対応する自動伴奏リハビリ支援システムの開発
科学技術振興機構 研究成果最適展開支援事業(A-STEP)FSステージ: 受託研究(一般受託研究)
研究期間: 2013年8月 - 2014年3月    代表者: 酒向 慎司

特許

 
特開2005-84436 : 音声認識装置及びコンピュータプログラム
山口 辰彦, 酒向 慎司, 山本 博史, 菊井 玄一郎
課題】あるモデルによる音声認識の誤りを、他のモデルによる音声認識結果で置換する際に、最終的な音声認識の精度を高める。【解決手段】音声認識装置は、N−グラムモデルを用いて音声認識を行ない、N−グラム候補44及び信頼度尺度を出力する音声認識部40、音声認識部40からのN−グラム候補44に対し、正誤を判別するように最適化された予備判別部46、予備判別部46が誤りと判定した箇所について、用例文モデルを用いて音声認識を行ない、用例文候補52と信頼度を算出する用例候補選択部50、N−グラム候補44を用...
特開2007-114355 : 音声合成方法及び装置
嵯峨山 茂樹, 槐 武也, 酒向 慎司, 松本 恭輔, 西本 卓也
【課題】高品質の合成音声を提供すると共に、加工性に優れた音声合成手法を提供する。【解決手段】音声のスペクトル包絡を混合ガウス分布関数で近似することで少数のパラメータによって音声スペクトルを表現して分析パラメータを得る。そして、この混合ガウス分布関数の逆フーリエ変換であるGabor関数の重ね合わせを基本波形とし、それをピッチ周期ごとに配置して有声音を合成する。ピッチ周期をランダムにすれば無声音も合成できる。
特開2011-553634 : 飲酒状態判定装置及び飲酒状態判定方法
岩田 英三郎, 酒向 慎司
本発明は、キーワードのような特定の言葉の利用を前提としない飲酒判定を可能とするものである。飲酒モデルは、飲酒者の音声の音響特徴による分類基準を用いた木構造を有する。この木構造におけるノードは、飲酒者の音素における音響特徴を示す。非飲酒モデルは、非飲酒者の音声の音響特徴による分類基準を用いた木構造を有する。この木構造におけるノードは、非飲酒者の音素における音響特徴を示す。まず、対象者の音声データを、飲酒モデルと非飲酒モデルのそれぞれの木構造に適用して、音素の音響特徴をノードに振り分ける。つぎ...