MISC

1999年3月4日

文字クラスモデルに基づく日本語単語分割

情報処理学会研究報告. 自然言語処理研究会報告
  • 小田 裕樹
  • ,
  • 森 信介
  • ,
  • 北 研二

99
22
開始ページ
1
終了ページ
8
記述言語
日本語
掲載種別
出版者・発行元
一般社団法人情報処理学会

日本語処理において,単語の同定,すなわち文の単語分割は,最も基本的かつ重要な処理である.本稿では,文字クラスモデルを言語モデルとして用いる新しい単語分割手法を提案する.まず,本研究の基本である文字モデルに基づく単語分割法を示す.その上で,文字モデルに代わり,日本語文字のクラス分類により得られた文字クラスモデルに基づく単語分割モデルを提案する.文字クラスモデルでは,推定すべきパラメータ数が文字モデルより少ないという大きな利点があり,文字モデルより頑健な推定を可能とする.ATR対話データベースを用いた評価実験において,文字モデルを用いた場合と文字クラスモデルを用いた場合の単語分割精度の比較を行い,文字クラスモデルに基づく本手法の有効性を示す.Word segmentation, which segments an input sentence into words, is the most fundamental process of Japanese language processing. In this paper, we present a new method for segmenting the input sentence into words, which is suitable for those languages that have no delimiter between words, such as Japanese and Chinese. It is based on a character class model. First, we explain a word segmentation model using a character-based model. Next, we present a word segmentation model based on a character class model instead of the character-based model. The effectiveness has been confirmed by evaluation experiments using the ADD (ATR Dialogue Database) corpus.

リンク情報
CiNii Articles
http://ci.nii.ac.jp/naid/110002935083
CiNii Books
http://ci.nii.ac.jp/ncid/AN10115061
URL
http://id.nii.ac.jp/1001/00048759/
ID情報
  • CiNii Articles ID : 110002935083
  • CiNii Books ID : AN10115061

エクスポート
BibTeX RIS