MISC

2001年7月12日

情報検索技術による構造化部分文書の抽出法

電子情報通信学会技術研究報告. DE, データ工学
  • 波多野 賢治
  • ,
  • 絹谷 弘子
  • ,
  • 吉川 正俊
  • ,
  • 植村 俊亮

101
193
開始ページ
135
終了ページ
142
記述言語
日本語
掲載種別
出版者・発行元
一般社団法人電子情報通信学会

構造化文書から, 利用者の問合せに相応しい部分文書を抽出する方法として提案されている手法には, 問合せ言語を利用するデータベース的なアプローチ法と, 情報検索技術を用いる手法がある.しかし, これらの手法によって得られる構造化部分文書の葉ノードであるテキストノードの中には, 利用者の問合せに相応しくないノイズとなるべきものも存在している.本稿では, 検索システムによって検索された構造化部分文書から, こうしたノードを除去する手法を提案し, その有効性を確認した.また, 構造化部分文書の検索精度評価のための手法についても提案し, いくつかの知見を得ることができた.これらの手法が確立すれば, 現在でWWWで利用され始めているXHTML文書から, 利用者の問合せに相応しい部分文書を効果的に検索することが可能となる.

リンク情報
CiNii Articles
http://ci.nii.ac.jp/naid/110003189141
CiNii Books
http://ci.nii.ac.jp/ncid/AN10012921
URL
http://id.ndl.go.jp/bib/5870651
ID情報
  • ISSN : 0913-5685
  • CiNii Articles ID : 110003189141
  • CiNii Books ID : AN10012921

エクスポート
BibTeX RIS