仮名漢字変換ログを用いた単語分割・読み推定の精度向上

情報処理学会自然言語処理研究会

高橋文彦
森信介

巻: NL-219
号: 15
開始ページ: 1
終了ページ: 10
記述言語: 日本語
掲載種別: 研究論文（研究会，シンポジウム資料等）

単語分割・読み推定の課題として，未知語の多いテキストを頑健に解析できないという問題がある．本研究ではこのような問題に対処するために，文章を作成するときに用いる仮名漢字変換のログを参照する方法を提案する．仮名漢字変換ログとは，インプットメソッドで文章を作成するときの履歴であり，単語境界や入力記号列の情報を含んでいるため，アノテーションデータと見なすことができる．一方で変換ログは，誤った確定結果などを含むためノイズありのアノテーションデータだといえる．本論文では，ノイズを含んだアノテーションデータを学習データに利用する３つの方法を提案する．実験では，Twitter を題材として提案手法を評価し，単語分割・読み推定ともに精度が向上することを確認し，提案手法の有効性を示した．

リンク情報

CiNii Articles: http://ci.nii.ac.jp/naid/170000088093
CiNii Books: http://ci.nii.ac.jp/ncid/AN10115061
URL: http://id.nii.ac.jp/1001/00107419/

ID情報

CiNii Articles ID : 170000088093
CiNii Books ID : AN10115061

エクスポート: BibTeX RIS

森信介

論文

仮名漢字変換ログを用いた単語分割・読み推定の精度向上

メニュー

共著者の一覧