論文

査読有り
2008年6月26日

XML情報検索における利得と閲覧コストに基づく検索結果の取得と評価

情報処理学会論文誌. データベース
  • 清水 敏之
  • ,
  • 吉川 正俊

1
1
開始ページ
1
終了ページ
12
記述言語
日本語
掲載種別
出版者・発行元
情報処理学会

XML 情報検索システムはXML 文書中の要素を検索単位に用い,問合せに対して関連する要素を特定する.我々は,システムが要素を取得して利用者に提示することで,利用者はその要素を閲覧するコストを支払い,問合せに関連する情報を利得として取得すると考えた.閲覧コストを導入することで検索結果の量を制御し,XML 情報検索で問題となる検索結果中の入れ子を適切に扱う.利用者は支払ってもよい閲覧コストの合計量を指定し,それに対してシステムは柔軟に入れ子しない要素集合を取得する.我々はこの指定された閲覧コストの中で利得を最大にする問題を定式化した.この問題はNP 困難でるため,貪欲解法を考え,さらにその理論的な上界値を求めた.上界値を利用することでシステムの絶対評価が可能となる.我々はINEX テストコレクションを利用してシステムを実装し,上界値の精度を確認した.XML information retrieval (XML-IR) systems search for relevant elements in XML documents for given queries. In our scheme, we suppose we pay reading effort and obtain benefit for the retrieved relevant element. We can control the total output size of result elements and handle nesting elements by introducing the concepts of benefit and reading effort. The system flexibly retrieves nonoverlapping elements within the reading effort specified by users. We formalized the problem of maximizing the benefit for a given reading effort, and found no unique algorithm as the optimal and practical solution for the problem. We therefore decided to use an upper bound of the benefit that is obtained by the system for system evaluation, and proposed evaluation metrics based on the upper bound changing the amount of reading effort. We confirmed the effectiveness of the upper bound and that its quality was sufficient for most queries.

リンク情報
CiNii Articles
http://ci.nii.ac.jp/naid/110007989997
CiNii Books
http://ci.nii.ac.jp/ncid/AA11464847
URL
http://id.ndl.go.jp/bib/024346550
URL
http://id.nii.ac.jp/1001/00017388/
ID情報
  • ISSN : 1882-7799
  • CiNii Articles ID : 110007989997
  • CiNii Books ID : AA11464847

エクスポート
BibTeX RIS