2012年4月 - 2015年3月
大規模テキストデータ中の部分構造と稀少な複合パタンの階層的な発見
日本学術振興会 科学研究費助成事業 基盤研究(B) 基盤研究(B)
本研究では、テキストデータ中の頻出な部分構造を組み合わせた非頻出なパタン発見の研究を行う。テキストにはZipf則があり、非頻出なパタン候補は無数にあるが、頻出なパタンを組み合わせたパタンの頻度が相対的に多い(絶対的には少ない)ものを発見することで、意味のある非頻出なパタン=稀少パタンを発見する。
このため、既に構築した例外文字列発見の枠組みを拡張と、新たに提案した「純度が高いパタン(pure pattern)」の枠組みで研究を行った。両者とも、細菌のゲノム配列におけるパタン発見での有効性を確認し、さらに、位置情報を持つブログデータやコンテキストの表現、学術論文への関連語発見等への適用も行った。
このため、既に構築した例外文字列発見の枠組みを拡張と、新たに提案した「純度が高いパタン(pure pattern)」の枠組みで研究を行った。両者とも、細菌のゲノム配列におけるパタン発見での有効性を確認し、さらに、位置情報を持つブログデータやコンテキストの表現、学術論文への関連語発見等への適用も行った。
- リンク情報
- ID情報
-
- 課題番号 : 24300059
- 体系的課題番号 : JP24300059