MISC

2001年

WFST に基づく確率文脈自由文法およびその拡張文法の高速EM学習法

自然言語処理
  • 亀谷由隆
  • ,
  • 森高志
  • ,
  • 佐藤泰介

8
1
開始ページ
49
終了ページ
84
記述言語
日本語
掲載種別
DOI
10.5715/jnlp.8.49
出版者・発行元
一般社団法人 言語処理学会

現在, 統計的言語モデルのークラスとして確率文脈自由文法 (PCFG) が広く知られている. また, 括弧なしコーパスからPCFGを訓練する方法としてInside-Outside (I-O) アルゴリズムが知られてきた. I-OアルゴリズムはPCFG用に効率化を施したEM (expectation-maximization) アルゴリズムだが, 依然その計算速度に問題があることが知られている. 本論文では, 文法構造があらかじめ与えられていることを前提に, 訓練過程を構文解析とEM学習に分離した高速EM学習法を提案する. その中間データ構造にパーザが生成するWFST (well-formed substring table) を用いる. 例えば, 一般化LRパーザを用いると事前コンパイル・ボトムアップ探索による効率性, およびChomsky標準形を要求しないという一般性を引き継ぐことができる. 一方EM学習では, WFSTのコンパクトさを利用して効率的なパラメタ推定が行なわれる. 推定結果はI-Oアルゴリズムで得られるものと一致する. 更に, 文脈依存性を取り入れたPCFGの拡張モデルに対する多項式オーダのEM学習法を示す. また, ATR対話コーパスを用いて実験を行ない, 訓練時間が大幅に短縮されていることを確認した.

リンク情報
DOI
https://doi.org/10.5715/jnlp.8.49
CiNii Articles
http://ci.nii.ac.jp/naid/10008830219
CiNii Books
http://ci.nii.ac.jp/ncid/AN10472659
URL
http://id.ndl.go.jp/bib/5634337
URL
https://jlc.jst.go.jp/DN/JALC/00071279534?from=CiNii
ID情報
  • DOI : 10.5715/jnlp.8.49
  • ISSN : 1340-7619
  • ISSN : 2185-8314
  • CiNii Articles ID : 10008830219
  • CiNii Books ID : AN10472659

エクスポート
BibTeX RIS