共同研究・競争的資金等の研究課題

2015年4月 - 2018年3月

実験情報の抽出・可視化・推薦のための電子図書館システムの研究

日本学術振興会  科学研究費助成事業 基盤研究(B)  基盤研究(B)

課題番号
15H02789
体系的課題番号
JP15H02789
配分額
(総額)
15,860,000円
(直接経費)
12,200,000円
(間接経費)
3,660,000円

学術情報からの情報抽出の課題については、平成28年度に引き続きテキスト分析の研究を行った。平成28年度はCRFを用いた情報抽出を行ったが、平成29年度は深層学習を用いた学術文献本文の分析および情報抽出を行い抽出精度の向上をはかった。文献に含まれる実験情報の抽出においては、実験結果をまとめた表の解析に取り組んだ。表は基本的にはn行m列のセルの並びとなるが、複数の行や列にまたがる複合的なセルもある。本研究では、セルの境界を表中のテキストのアライメントに基づいて抽出する方法を考案した。これにより複数行(列)にまたがるセルを含む不定形な表かの情報抽出を可能とした。国際会議ICDARで行われた表理解のコンペティションで作成された評価コーパスを用いて性能評価を行ったところ、考案した手法はコンペティションで最も高い精度を達成した手法と同等の精度を有することを確認した。
情報推薦の研究では、ニューラルモデルを用いた利用者およびアイテムのembedding法について研究を進めた。モデルの学習には一般に大規模な訓練データが必要になるが、システムの利用者から訓練データを収集するのは容易でない。そこで、利用者から比較的容易にデータ収集が可能なシステムの利用ログを併用する方法について検討を進めた。アクセスログ情報をコンテキストとするニューラルネットワークを用いることで情報推薦の精度を高められることを確認した。また、アイテムに関するコンテキストを活用することで、「置き換え可能なアイテム」や「相補的な役割を果たすアイテム」など、アイテム間の詳細な関係を抽出できる可能性があることがわかった。

リンク情報
KAKEN
https://kaken.nii.ac.jp/grant/KAKENHI-PROJECT-15H02789
ID情報
  • 課題番号 : 15H02789
  • 体系的課題番号 : JP15H02789