2001年

WFST に基づく確率文脈自由文法およびその拡張文法の高速EM学習法

自然言語処理

亀谷由隆
森高志
佐藤泰介

巻: 8
号: 1
開始ページ: 49
終了ページ: 84
記述言語: 日本語
掲載種別
DOI: 10.5715/jnlp.8.49
出版者・発行元: 一般社団法人言語処理学会

現在, 統計的言語モデルのークラスとして確率文脈自由文法 (PCFG) が広く知られている. また, 括弧なしコーパスからPCFGを訓練する方法としてInside-Outside (I-O) アルゴリズムが知られてきた. I-OアルゴリズムはPCFG用に効率化を施したEM (expectation-maximization) アルゴリズムだが, 依然その計算速度に問題があることが知られている. 本論文では, 文法構造があらかじめ与えられていることを前提に, 訓練過程を構文解析とEM学習に分離した高速EM学習法を提案する. その中間データ構造にパーザが生成するWFST (well-formed substring table) を用いる. 例えば, 一般化LRパーザを用いると事前コンパイル・ボトムアップ探索による効率性, およびChomsky標準形を要求しないという一般性を引き継ぐことができる. 一方EM学習では, WFSTのコンパクトさを利用して効率的なパラメタ推定が行なわれる. 推定結果はI-Oアルゴリズムで得られるものと一致する. 更に, 文脈依存性を取り入れたPCFGの拡張モデルに対する多項式オーダのEM学習法を示す. また, ATR対話コーパスを用いて実験を行ない, 訓練時間が大幅に短縮されていることを確認した.

リンク情報

DOI: https://doi.org/10.5715/jnlp.8.49
CiNii Articles: http://ci.nii.ac.jp/naid/10008830219
CiNii Books: http://ci.nii.ac.jp/ncid/AN10472659
URL: http://id.ndl.go.jp/bib/5634337
URL: https://jlc.jst.go.jp/DN/JALC/00071279534?from=CiNii

ID情報

DOI : 10.5715/jnlp.8.49
ISSN : 1340-7619
ISSN : 2185-8314
CiNii Articles ID : 10008830219
CiNii Books ID : AN10472659

エクスポート: BibTeX RIS

亀谷由隆

MISC

WFST に基づく確率文脈自由文法およびその拡張文法の高速EM学習法

メニュー

共著者の一覧