2014年3月13日
文書分別のための未知語からのインデックスターム生成
情報処理学会 第76回全国大会
- ,
- ,
- 記述言語
- 日本語
- 会議種別
- 口頭発表(一般)
- 主催者
- 情報処理学会
- 開催地
- 東京電機大学 東京千住キャンパス
文書分別のシステムを作成する際,インデックスターム作成のため形態素解析エンジンを活用することが多い.しかし,既存の形態素解析エンジンでは,ツール内辞書に存在しない単語は正しい解析を行えず未知語として出力される.従来,未知語が出現した際は,新たな単語を辞書に登録することを前提としているが,新語は次々に生まれ,辞書登録が追いつかなくなる.本研究では,汎用的な文書分別システムの制作のための,文書の形態素解析結果に含まれる未知語に対し,その未知語及び前後の形態素からインデックスタームを生成する方法を提案する.
- リンク情報