論文

査読有り
2023年1月

特徴選択を導入した低・ゼロ頻度N-gramの効率的なゆう度比推定法

電子情報通信学会和文論文誌D
  • 菊地真人
  • ,
  • 吉田光男
  • ,
  • 梅村恭司
  • ,
  • 大囿忠親

J106-D
1
開始ページ
14
終了ページ
25
記述言語
日本語
掲載種別
研究論文(学術雑誌)
DOI
10.14923/transinfj.2022JDT0001

自然言語処理(NLP)では,N-gramのゆう度比を頻度情報から推定することがある.コーパスが含むN-gramはごく一部であり,そのほとんどは出現頻度が低い.このとき頻度による単純なゆう度比推定法は,低頻度から計算される推定値を不当に高く見積もり,コーパスで未観測のゼロ頻度N-gramには有用な推定値を算出できない.ゼロ頻度N-gramへの対策として,N-gramを文字や単語などの離散値に分解し,それらのゆう度比の積を取る方法が考えられる.更に,頻度に応じてゆう度比を低めに見積もる推定法を,個々のゆう度比推定へと適用し,低頻度に対する過大推定を抑制できる.しかしこの方法では多くの離散値を扱うため,推定に要する実行時間やメモリ使用量が増加する.加えて不要な離散値を用いると推定精度が低下する.そこで本論文では,先述の方法と文書分類で用いられる特徴選択法を組み合わせる.有用な離散値のみを選択して用い,推定精度の低下を抑制しつつ推定効率の向上を図る.コーパスから固有表現の文脈をゆう度比で予測する実験を行い,提案する推定法が低頻度及びゼロ頻度N-gramに対し,効果的かつ効率的な推定結果を提供することを示す.

リンク情報
DOI
https://doi.org/10.14923/transinfj.2022JDT0001
ID情報
  • DOI : 10.14923/transinfj.2022JDT0001

エクスポート
BibTeX RIS