共同研究・競争的資金等の研究課題

2012年4月 - 2015年3月

大規模テキストデータ中の部分構造と稀少な複合パタンの階層的な発見

日本学術振興会  科学研究費助成事業 基盤研究(B)  基盤研究(B)

課題番号
24300059
体系的課題番号
JP24300059
担当区分
連携研究者
配分額
(総額)
9,230,000円
(直接経費)
7,100,000円
(間接経費)
2,130,000円

本研究では、テキストデータ中の頻出な部分構造を組み合わせた非頻出なパタン発見の研究を行う。テキストにはZipf則があり、非頻出なパタン候補は無数にあるが、頻出なパタンを組み合わせたパタンの頻度が相対的に多い(絶対的には少ない)ものを発見することで、意味のある非頻出なパタン=稀少パタンを発見する。
このため、既に構築した例外文字列発見の枠組みを拡張と、新たに提案した「純度が高いパタン(pure pattern)」の枠組みで研究を行った。両者とも、細菌のゲノム配列におけるパタン発見での有効性を確認し、さらに、位置情報を持つブログデータやコンテキストの表現、学術論文への関連語発見等への適用も行った。

リンク情報
Kaken Url
https://kaken.nii.ac.jp/file/KAKENHI-PROJECT-24300059/24300059seika.pdf
KAKEN
https://kaken.nii.ac.jp/grant/KAKENHI-PROJECT-24300059
ID情報
  • 課題番号 : 24300059
  • 体系的課題番号 : JP24300059