論文

2020年

多段階時空間推論による映像質問応答

人工知能学会全国大会論文集
  • 宮西 大樹
  • ,
  • 前川 卓也
  • ,
  • 川鍋 一晃

2020
0
開始ページ
2Q1GS1004
終了ページ
2Q1GS1004
記述言語
日本語
掲載種別
DOI
10.11517/pjsai.JSAI2020.0_2Q1GS1004
出版者・発行元
一般社団法人 人工知能学会

<p>本研究では、多段階時空間推論による映像質問応答手法を提案する。映像質問応答とは、ある映像とその映像に関する質問が与えられたときに、その質問に対して適切な答えを返す課題である。映像は複数のフレーム画像から構成されるため、これまで画像フレームとテキストの関係を表す時間的構造を考慮した映像質問応答手法が数多く提案され、複数の映像質問応答データセットで良い性能を示してきた。しかし、映像を構成する画像フレームには複数の物体が映ることが多いにもかかわらず、時間と空間の両方の情報を同時に考慮できる高性能な映像質問応答手法はまだ少ない。映像に対して、より複雑かつ正確な推論を行うには、映像の時空間的構造と自然言語で記述された質問を同時に考慮することが不可欠である。そこで、本研究では空間情報を扱う視覚的推論課題で高い性能を示すCompositional Attention Networksを時空間情報を処理できるネットワークへと拡張し、これを映像質問応答に利用する。本手法を、公開されている4つの映像質問応答データセットに適用したところ、従来の手法と比較して全てのデータセットで最も良い性能を示すことがわかった。</p>

リンク情報
DOI
https://doi.org/10.11517/pjsai.JSAI2020.0_2Q1GS1004
CiNii Articles
http://ci.nii.ac.jp/naid/130007857020
ID情報
  • DOI : 10.11517/pjsai.JSAI2020.0_2Q1GS1004
  • CiNii Articles ID : 130007857020

エクスポート
BibTeX RIS