共同研究・競争的資金等の研究課題

2011年 - 2013年

データ圧縮はテキストを要約できるか?

文部科学省  科学研究費補助金(挑戦的萌芽研究)
  • 坂本 比呂志
  • ,
  • 久保山 哲二

課題番号
23650074
担当区分
連携研究者
配分額
(総額)
3,640,000円
(直接経費)
2,800,000円
(間接経費)
840,000円
資金種別
競争的資金

あまりにも巨大なテキストは,読むことができないデータとほぼ同じであり,このようなデータの洪水に立ち向かうための次世代基盤技術の確立が急務である.本研究は,データ圧縮を要約するための技術として発展させることで巨大テキストの俯瞰を可能にし,気づかれずに埋もれている知識を発掘する.具体的には,これまでに申請者が開発した,テキスト中のパターンの関係を保存しながら圧縮する技術をマイニングに応用することで,GB 超~TB クラスの巨大テキスト同士の直接比較を可能にし,これまでは歯が立たなかった超大規模テキストから知識のまとまりを再構成する.平成24年度は,データ圧縮アルゴリズムによる大規模データからの知識抽出の研究を推進した.まず,データベースへの応用として,twitterなどのSNSデータへの適用可能性を探るために,学術用に公開されているデータを用いて,関連tweet間を結ぶ編で構成された巨大グラフを構築し,そのグラフ上のパターン発見を既存アルゴリズムであるクリーク発見手法によって行った.その結果,SNS特有のパターンが取得できることを示した.この結果は国際会議のポスター発表として公開した.次年度では,SNS特有の表現が含まれているテキストの内容を加味したパターン発見に拡張する.また本年度は,文字列が出現する数学上の問題に,データ圧縮が適用可能であることを示した.これは絡み目理論と呼ばれるトポロジーの分野に現れるある種の問題解析にデータ圧縮を用いることで圧倒的に計算時間を短縮できることを示したものである.この結果により,この分野に新しい解析手法をもたらしたと言える.今後は,この手法の普及に努めていく.

リンク情報
URL
https://kaken.nii.ac.jp/d/p/23650074.ja.html