MISC

2000年10月15日

言語横断情報検索におけるWeb文書群による訳語曖昧性解消

情報処理学会論文誌データベース(TOD)
  • 前田 亮
  • ,
  • 吉川 正俊
  • ,
  • 植村 俊亮

41
6
開始ページ
12
終了ページ
21
記述言語
日本語
掲載種別
出版者・発行元
一般社団法人情報処理学会

世界的なインターネットの発展にともない,ある言語で書かれた文書群を別の言語による問合せで検索することを可能とする言語横断情報検索(Cross-Language Information Retrieval)に関する研究がさかんになってきている.この実現手法としては,既存の検索システムを利用できるなどの理由から,利用者の問合せを検索対象言語に翻訳する方式が主流になっている.問合せ翻訳方式の言語横断情報検索へのアプローチとしては,既存の機械翻訳システムを用いる手法,対訳辞書によって得られた訳語候補に対して多言語シソーラスあるいは並列コーパスを用いて曖昧性を解消する手法などがこれまでに研究されているが,これらの言語資源の入手は一般に容易ではない.本稿では,Web文書を対象とする言語横断情報検索システムにおいて,Web検索エンジンから単語間の共起情報などを入手し,辞書ベースの問合せ翻訳における曖昧性を解消する新しい手法を提案し,実験により評価する.これによって,従来の言語横断情報検索の課題であった言語資源の入手に悩まされることが少なくなり対応言語の拡張も容易になり,かつ,相応の検索性能を得ることができる.With the world-wide growth of the Internet, research on Cross-Language Information Retrieval (CLIR), a technique to retrieve documents written in one language using a query written in another language, is being paid much attention. Among various approaches to CLIR, the approach which translates user's query into the target language has been the current mainstream, mainly because it can be integrated into existing monolingual search engines. Existing query-translation-based CLIR approaches include using machine-translation systems, and dictionary-based translation with corpus-based disambiguation using parallel corpora or comparable corpora, but those natural language resources are not readily available. In this paper, we propose a novel disambiguation method for a CLIR system targeting Web documents, which uses co-occurrence information between terms obtained from a Web search engine. Our method does not suffer from availability of scarce language resources, while achieving adequate retrieval effectiveness, and also it can easily be extended to other languages.

リンク情報
CiNii Articles
http://ci.nii.ac.jp/naid/110002725604
CiNii Books
http://ci.nii.ac.jp/ncid/AA11464847
URL
http://id.ndl.go.jp/bib/5731980
URL
http://id.nii.ac.jp/1001/00017722/
ID情報
  • ISSN : 1882-7799
  • CiNii Articles ID : 110002725604
  • CiNii Books ID : AA11464847

エクスポート
BibTeX RIS