講演・口頭発表等

2023年3月15日

深層学習による口唇情報を用いた雑音下での音声認識精度の改善

日本音響学会研究発表会講演論文集
  • 伊達 龍斗
  • ,
  • 太田 健吾
  • ,
  • 西村 良太
  • ,
  • 北岡 教英

記述言語
日本語
会議種別

近年,音声認識技術の発達により,深層学習モ デルを使用した音声認識の精度が向上し,これ らを用いたシステムが普及してきている.しか し,実環境では音声信号に雑音が入ることが多 く,認識精度が大きく低下する.そのため,実用 的なシステムを開発する際には対雑音性をどの ようにして高めるのかが課題となる. 対雑音性を高める手段としてマルチモーダル 音声認識がある.人間の場合,聴覚や視覚,触覚 といった感覚を通じて情報を伝達しており,これ らの手段のことをモダリティと呼ぶ.これらのモ ダリティを使い分けたり同時に使うことにより 情報を伝達している状態をマルチモーダルな状 態と呼ぶ[1].単一のモダリティでは認識を誤る 可能性がある場合であっても,マルチモーダルで あればその冗長性により誤認識の訂正や補完が 可能となる. 本研究では,音声と口唇情報を使用してマル チモーダル音声認識を行った.音声と口唇情報で はそれぞれ誤認識が起こりやすい音素が異なる ので,両方を合わせて使用することで認識精度 の向上が期待できる.

リンク情報
URL
https://web.db.tokushima-u.ac.jp/cgi-bin/edb_browse?EID=412320