MISC

1997年3月12日

複合語マッチングによる情報検索

全国大会講演論文集
  • 山田 剛一
  • ,
  • 斉藤 公一
  • ,
  • 森 辰則
  • ,
  • 中川 裕志

54
3
開始ページ
27
終了ページ
28
出版者・発行元
一般社団法人情報処理学会

ネットワークの発展により, 一般ユーザが大規模データベースに対して検索を行う機会が増えている. 多くの場合ユーザが望む出力数は限られているので, 文書に対し綿密な重要度付与を行ってランクづけすることが必要である. 本発表では, 語が複合して意味のまとまりをつくることに着目し, 複合語を単位とした類似度計算を行うことによって柔軟なスコアリングを行う手法を提案する. 日本語は, 複合語が多く現れる言語である. 複合語は全体で一つの概念を表現しているので, 文書の特徴量を考える際には, 複合語を構成する個々の単語ではなく複合語自身を用いることが望ましいと考えられる. しかし, 文書をランキングするために広く用いられているベクトル空間モデルは, ベクトルの要素として単語の重みを用いている. 我々はこれを拡張し, 複合語の部分マッチに対するスコアを定義することにより, 擬似的に基本量を複合語に格上げし, より文書の特徴を的確に捉えることを試みた.

リンク情報
CiNii Articles
http://ci.nii.ac.jp/naid/110002890578

エクスポート
BibTeX RIS