2023年1月
特徴選択を導入した低・ゼロ頻度N-gramの効率的なゆう度比推定法
電子情報通信学会和文論文誌D
- ,
- ,
- ,
- 巻
- J106-D
- 号
- 1
- 開始ページ
- 14
- 終了ページ
- 25
- 記述言語
- 日本語
- 掲載種別
- 研究論文(学術雑誌)
- DOI
- 10.14923/transinfj.2022JDT0001
自然言語処理(NLP)では,N-gramのゆう度比を頻度情報から推定することがある.コーパスが含むN-gramはごく一部であり,そのほとんどは出現頻度が低い.このとき頻度による単純なゆう度比推定法は,低頻度から計算される推定値を不当に高く見積もり,コーパスで未観測のゼロ頻度N-gramには有用な推定値を算出できない.ゼロ頻度N-gramへの対策として,N-gramを文字や単語などの離散値に分解し,それらのゆう度比の積を取る方法が考えられる.更に,頻度に応じてゆう度比を低めに見積もる推定法を,個々のゆう度比推定へと適用し,低頻度に対する過大推定を抑制できる.しかしこの方法では多くの離散値を扱うため,推定に要する実行時間やメモリ使用量が増加する.加えて不要な離散値を用いると推定精度が低下する.そこで本論文では,先述の方法と文書分類で用いられる特徴選択法を組み合わせる.有用な離散値のみを選択して用い,推定精度の低下を抑制しつつ推定効率の向上を図る.コーパスから固有表現の文脈をゆう度比で予測する実験を行い,提案する推定法が低頻度及びゼロ頻度N-gramに対し,効果的かつ効率的な推定結果を提供することを示す.
- ID情報
-
- DOI : 10.14923/transinfj.2022JDT0001