2018年10月 - 2021年3月
文字列圧縮と組合せ論による大規模データ管理・処理技法の開発
日本学術振興会 科学研究費助成事業 特別研究員奨励費
本研究では,外国人特別研究員 Dominik Koeppl 博士(ドイツ)を中心メンバーとして,以下の研究分野における研究開発を行った.(a) 可逆圧縮アルゴリズム,(b) 文字列データ構造,(c) 文字列組み合わせ論.
分野 (a) について,Koeppl 氏の先行研究で提案されている lcpcomp というテキスト圧縮アルゴリズムの改善に取り組んだ.lcpcomp は,辞書式順序に整列した接尾辞列の最長共通接頭辞を利用する圧縮法で,圧縮は速いが展開に時間が掛かることが知られている.本研究では,シンプルなアルゴリズムで展開できる新圧縮技法 uni-lcpcomp を開発した.また,lcpcomp が自己参照を許すのに対し,自己参照を避ける non-overlapping lcpcomp を考案した.
分野 (b) について,レジスタ長を有効活用したパック化索引構造を提案した.Z-fast trie, および Takagi らのパック化索引構造などと比較して,理論・実際の両面でより高速であることを確認した.また,全単射 BW 変換文字列に対する索引構造を提案した.
分野 (c) について,最短唯一部分文字列 (Shortest Unique Substring, SUS) を求めるクエリに高速応答する簡潔データ構造の開発に着手した.この研究成果自体は,分野 (b) に属するものであるが,SUS に内在する組み合わせ的性質を解明・利用することにより,データ構造の冗長性を削除し,省領域なデータ構造の開発へと繋げていくものである.
分野 (a) について,Koeppl 氏の先行研究で提案されている lcpcomp というテキスト圧縮アルゴリズムの改善に取り組んだ.lcpcomp は,辞書式順序に整列した接尾辞列の最長共通接頭辞を利用する圧縮法で,圧縮は速いが展開に時間が掛かることが知られている.本研究では,シンプルなアルゴリズムで展開できる新圧縮技法 uni-lcpcomp を開発した.また,lcpcomp が自己参照を許すのに対し,自己参照を避ける non-overlapping lcpcomp を考案した.
分野 (b) について,レジスタ長を有効活用したパック化索引構造を提案した.Z-fast trie, および Takagi らのパック化索引構造などと比較して,理論・実際の両面でより高速であることを確認した.また,全単射 BW 変換文字列に対する索引構造を提案した.
分野 (c) について,最短唯一部分文字列 (Shortest Unique Substring, SUS) を求めるクエリに高速応答する簡潔データ構造の開発に着手した.この研究成果自体は,分野 (b) に属するものであるが,SUS に内在する組み合わせ的性質を解明・利用することにより,データ構造の冗長性を削除し,省領域なデータ構造の開発へと繋げていくものである.
- ID情報
-
- 課題番号 : 18F18120
この研究課題の成果一覧
絞り込み
論文
3-
Proc. DCC 193-202 2021年3月 査読有り責任著者
-
Algorithms 14(2) 44-44 2021年1月29日 査読有り責任著者
-
Local Proceedings of the LA Symposium Summer 2019 285 Part B(2) 1-22 2019年7月 責任著者