共同研究・競争的資金等の研究課題

2020年4月 - 2024年3月

品質推定に基づく半教師あり機械翻訳

日本学術振興会  科学研究費助成事業 若手研究  若手研究

課題番号
20K19861
体系的課題番号
JP20K19861
担当区分
研究代表者
配分額
(総額)
4,030,000円
(直接経費)
3,100,000円
(間接経費)
930,000円

本研究では、自然言語処理モデルによる出力文を正解文なしで自動評価する品質推定に取り組み、これを活用して半教師ありの設定で機械翻訳をはじめとするテキスト生成モデルを訓練する。今年度は、入力文と出力文が同一言語である文法誤り訂正タスクと、入力文と出力文が異言語である機械翻訳タスクの両方において、品質推定モデルの改善に取り組んだ。
(i) 文法誤り訂正タスクにおける品質推定
英語の文法誤り訂正システムによる出力文に対して、文法性・流暢性・同義性の3項目に関する人手評価値を付与したデータセットを構築し、公開した。そして、このデータセットを用いて、品質推定モデルを教師あり学習した。実験の結果、我々の品質推定モデルが、正解文に基づく評価指標や既存の品質推定モデルよりも高い人手評価との相関を達成することが明らかになった。また、27種類の誤りに関する詳細な分析の結果、既存モデルがいくつかの種類の誤り訂正に対して減点してしまっているのに対して、提案モデルは全ての種類の誤り訂正に対して適切に加点できていることがわかった。
(ii) 機械翻訳タスクにおける品質推定
複数言語のデータを用いて単語穴埋めの事前学習を行ったマスク言語モデルをベースに、言語横断の文間意味的類似度推定モデルを構築した。提案手法では、マスク言語モデルから得られる文ベクトルを、言語情報を表す言語ベクトルと意味情報を表す意味ベクトルに分離する。この意味ベクトルを用いて、入力文と出力文の間の意味的類似度推定を行うことで、人手評価値を使用しない教師なし設定での機械翻訳の品質推定を実現した。実験の結果、多くのベースモデルと言語対の組み合わせにおいて、品質推定の性能を改善できることがわかった。

リンク情報
KAKEN
https://kaken.nii.ac.jp/grant/KAKENHI-PROJECT-20K19861
ID情報
  • 課題番号 : 20K19861
  • 体系的課題番号 : JP20K19861

この研究課題の成果一覧

論文

  8