MISC

2005年7月22日

単語リストと生コーパスによる確率的言語モデルの分野適応(言語の統計モデル)

情報処理学会研究報告. 自然言語処理研究会報告
  • 森 信介

2005
73
開始ページ
149
終了ページ
155
記述言語
日本語
掲載種別
出版者・発行元
一般社団法人情報処理学会

本論文では、単語リストと生コーパスが利用可能な状況における確率的言語モデルの分野適応について述べる。このような状況の下での一般的な対処は、単語リストを語彙に加えた自動単語分割システムによる生コーパスの自動単語分割の出力文を可能な限り人手で修正し、パラメータ推定に利用することである。しかしながら、文単位での修正では、正確な単語分割が容易でない箇所が含まれることになり、作業効率の著しい低下を招く。加えて、文単位で順に修正していくことが、限られた作業量を割り当てる最良の方法であるかということも疑問である。本論文では、コーパスの修正を単語単位とし、修正箇所を単語リストで与えられる適応分野に特有の単語に集中することを提案する。これにより、上述の困難を回避し、適応分野に特有の単語の統計的な振る舞いを捕捉するという、適応分野のコーパスを利用する本来の目的にのみコーパス修正の作業を集中することが可能となる。実験では、自動単語分割の結果の人手による修正の程度や方法を複数用意し、その結果得られるコーパスから推定された確率的言語モデルの予測力やそれに基づく仮名漢字変換の精度を計算した。この結果、適応分野に特有の語彙の出現箇所に修正のコストを集中することにより、少ない作業量で効率良く確率的言語モデルを分野適応できることが分かった。In this paper,we discuss stochastic language model adaptation methods given a word list and a raw corpus. In this situation,a general method is to segment the raw corpus by a word segmenter equipped with a word list,correct the output sentences annotated with word boundary information by hand,and build a model from the segmented corpus. In this sentence-by-sentence error correction method,however,the annotator encounters difficult points and this results in a decrease of the productivity. In addition,it is not sure that sentence-by-sentence error correction from the beginning is the best way to dispense a limited work force. In this paper,we propose to take a word as a correction unit and concentrically correct the positions in which words in the list appear. This method allows us to avoid the above difficulty and go straight to capture the statistical behavior of specific words in the application field. In the experiments,we used a variety of methods to prepare a segmented corpus and compared the language models from the corpora in predictive power and Kana-Kanji conversion accuracy. The results showed that concentrating on the error correction around the words in the list,we can build a better language model with less effort.

リンク情報
CiNii Articles
http://ci.nii.ac.jp/naid/110002952457
CiNii Books
http://ci.nii.ac.jp/ncid/AN10115061
URL
http://id.ndl.go.jp/bib/7385885
URL
http://id.nii.ac.jp/1001/00048031/
ID情報
  • ISSN : 0919-6072
  • CiNii Articles ID : 110002952457
  • CiNii Books ID : AN10115061

エクスポート
BibTeX RIS