2023年3月15日
深層学習による口唇情報を用いた雑音下での音声認識精度の改善
日本音響学会研究発表会講演論文集
- ,
- ,
- ,
- 記述言語
- 日本語
- 会議種別
近年,音声認識技術の発達により,深層学習モ デルを使用した音声認識の精度が向上し,これ らを用いたシステムが普及してきている.しか し,実環境では音声信号に雑音が入ることが多 く,認識精度が大きく低下する.そのため,実用 的なシステムを開発する際には対雑音性をどの ようにして高めるのかが課題となる. 対雑音性を高める手段としてマルチモーダル 音声認識がある.人間の場合,聴覚や視覚,触覚 といった感覚を通じて情報を伝達しており,これ らの手段のことをモダリティと呼ぶ.これらのモ ダリティを使い分けたり同時に使うことにより 情報を伝達している状態をマルチモーダルな状 態と呼ぶ[1].単一のモダリティでは認識を誤る 可能性がある場合であっても,マルチモーダルで あればその冗長性により誤認識の訂正や補完が 可能となる. 本研究では,音声と口唇情報を使用してマル チモーダル音声認識を行った.音声と口唇情報で はそれぞれ誤認識が起こりやすい音素が異なる ので,両方を合わせて使用することで認識精度 の向上が期待できる.