講演・口頭発表等

2020年3月19日

スペルチェッカー付きSEQ2SEQモデルを用いた翻訳語の正規化

言語処理学会発表論文集
  • ZOLZAYA BYAMBADORJ
  • ,
  • 西村 良太
  • ,
  • Altangerel Ayush
  • ,
  • 北岡 教英

記述言語
日本語
会議種別

モンゴル語には二つの書き方があります.-古典モンゴル語(ウイグルモンゴル語)とキリル文字 モンゴルではこの2つの文字体系が使われています.モンゴル人民共和国は1940年にロシアのキリル文字を修正したものを使い始めました.モンゴルのキリル文字は35文字です.以前はキリル文字を使っていましたが,最近ではFacebookやTwitterなどのソーシャルメディアでもラテン文字を使って文章を書く人が多くなってきました.ソーシャルメディア上でローマ字を使って音訳したテキストを書く場合,ルールはありません.そのため,一つの単語でも様々な形で書くことができます.ソーシャルメディアのテキスト処理は,NLPの重要なテーマの一つです.そのため,ここ数年,ソーシャルメディアに焦点を当てた研究が盛んに行われています.しかし,モンゴル語については,この分野の研究が不足しており,本研究はモンゴル語のテキスト正規化の最初の研究となります.テキスト正規化とは,音声・言語処理アプリケーションの前処理段階のことです.最初の正規化は,数字,日付,頭字語,略語などの非標準形の単語を,形式的なテキストの標準形に変換することでした.しかし,その後,この内容はソーシャルメディア上の非公式なテキストを形式的なテキストに変換するために拡張されました.ノイズの多いテキスト正規化の研究作業では,ソーステキストもターゲットテキストも同じ言語である.私たちの場合は少し異なり,ソーシャルメディア上のノイジーな音訳文をフォーマルなスタイルに変換することを目的としています.つまり,ソーステキストとターゲットテキストのスクリプトは,それぞれローマ字とキリル文字の異なるものです.

リンク情報
URL
https://web.db.tokushima-u.ac.jp/cgi-bin/edb_browse?EID=373079