2014年4月 - 2017年3月
タイニーデータマイニング:基底としての確率分布による大規模データの再構成
日本学術振興会 科学研究費助成事業 基盤研究(C) 基盤研究(C)
この研究は規模の大きなデータの要約を目指しています。主に扱うのは文字で書かれたデータ、つまりテキストデータです。ニュース記事、学術論文、小説などがこれにあたります。テキストデータも量が多くなってくると、ひとつひとつ人間が目を通すわけにいかなくなります。そこで要約を作ります。この研究が作る要約は単語リストです。例えば「試合、ヒット、ピッチャー、トレード」という単語リストを見ると、私たちはこれが野球というトピックを表していると分かります。このような単語リストを膨大なテキストデータから自動的にいくつも取り出し、文章をひとつひとつ読まなくても何が書いてあるか分かるようにするのが、この研究の目的です。
- リンク情報
- ID情報
-
- 課題番号 : 26330256
- 体系的課題番号 : JP26330256