論文

査読有り
2021年7月

Normalization of Transliterated Mongolian Words Using Seq2Seq Model with Limited Data (accepted)

ACM Transactions on Asian and Low-Resource Language Information Processing
  • ZOLZAYA BYAMBADORJ
  • ,
  • 西村 良太
  • ,
  • Altangerel Ayush
  • ,
  • 北岡 教英

Vol.20
No.6
開始ページ
1
終了ページ
19
記述言語
英語
掲載種別
研究論文(学術雑誌)
DOI
10.1145/3464361

近年,ソーシャルメディアの利用が大幅に増加したことで,新たな社会的交流の形が生まれ,私たちの日常生活に変化をもたらしています.グローバル化に伴い,異文化間の接触が増えたことで,ラテン文字の使用が増え,その結果,ソーシャルメディア上で大量の音訳されたテキストが使用されるようになっています.本研究では,利用可能な学習データが限られているシナリオにおいて,ラテン文字で書かれたノイズの多い音訳テキストをモンゴル語のキリル文字に正規化するために,様々な文字レベルのsequence-to-sequence(seq2seq)モデルを提案しました.本研究では,2つの基本的なseq2seqモデルに対して,様々なビームサーチ戦略,N-gramベースの文脈採用,編集距離ベースの補正,辞書ベースのチェックなどの性能向上手法を新しい方法で適用した. これら2つの基本モデルと14の拡張seq2seqモデルを実験的に評価し,ノイズの多いテキストの正規化性能を音訳モデルや従来の統計的機械翻訳(SMT)モデルと比較した.提案したseq2seqモデルは,基本的なseq2seqモデルのOOV(out-of-vocabulary)単語の正規化に対する頑健性を向上させ,ほとんどのモデルが従来の手法よりも高い正規化性能を達成した.また,テストデータを用いた正規化実験では,推論期間中に各仮説をチェックする提案手法が最も低い単語誤り率(WER = 13.41%)を達成し,従来のSMT手法を用いた場合よりも4.51%少ない誤り率となった.

リンク情報
DOI
https://doi.org/10.1145/3464361
URL
https://web.db.tokushima-u.ac.jp/cgi-bin/edb_browse?EID=376744
ID情報
  • DOI : 10.1145/3464361
  • ISSN : 2375-4699

エクスポート
BibTeX RIS