2001年
WFST に基づく確率文脈自由文法およびその拡張文法の高速EM学習法
自然言語処理
- ,
- ,
- 巻
- 8
- 号
- 1
- 開始ページ
- 49
- 終了ページ
- 84
- 記述言語
- 日本語
- 掲載種別
- DOI
- 10.5715/jnlp.8.49
- 出版者・発行元
- 一般社団法人 言語処理学会
現在, 統計的言語モデルのークラスとして確率文脈自由文法 (PCFG) が広く知られている. また, 括弧なしコーパスからPCFGを訓練する方法としてInside-Outside (I-O) アルゴリズムが知られてきた. I-OアルゴリズムはPCFG用に効率化を施したEM (expectation-maximization) アルゴリズムだが, 依然その計算速度に問題があることが知られている. 本論文では, 文法構造があらかじめ与えられていることを前提に, 訓練過程を構文解析とEM学習に分離した高速EM学習法を提案する. その中間データ構造にパーザが生成するWFST (well-formed substring table) を用いる. 例えば, 一般化LRパーザを用いると事前コンパイル・ボトムアップ探索による効率性, およびChomsky標準形を要求しないという一般性を引き継ぐことができる. 一方EM学習では, WFSTのコンパクトさを利用して効率的なパラメタ推定が行なわれる. 推定結果はI-Oアルゴリズムで得られるものと一致する. 更に, 文脈依存性を取り入れたPCFGの拡張モデルに対する多項式オーダのEM学習法を示す. また, ATR対話コーパスを用いて実験を行ない, 訓練時間が大幅に短縮されていることを確認した.
- リンク情報
- ID情報
-
- DOI : 10.5715/jnlp.8.49
- ISSN : 1340-7619
- ISSN : 2185-8314
- CiNii Articles ID : 10008830219
- CiNii Books ID : AN10472659