2020年4月 - 2024年3月
品質推定に基づく半教師あり機械翻訳
日本学術振興会 科学研究費助成事業 若手研究 若手研究
本研究では、自然言語処理モデルによる出力文を正解文なしで自動評価する品質推定に取り組み、これを活用して半教師ありの設定で機械翻訳をはじめとするテキスト生成モデルを訓練する。今年度は、入力文と出力文が同一言語である文法誤り訂正タスクと、入力文と出力文が異言語である機械翻訳タスクの両方において、品質推定モデルの改善に取り組んだ。
(i) 文法誤り訂正タスクにおける品質推定
英語の文法誤り訂正システムによる出力文に対して、文法性・流暢性・同義性の3項目に関する人手評価値を付与したデータセットを構築し、公開した。そして、このデータセットを用いて、品質推定モデルを教師あり学習した。実験の結果、我々の品質推定モデルが、正解文に基づく評価指標や既存の品質推定モデルよりも高い人手評価との相関を達成することが明らかになった。また、27種類の誤りに関する詳細な分析の結果、既存モデルがいくつかの種類の誤り訂正に対して減点してしまっているのに対して、提案モデルは全ての種類の誤り訂正に対して適切に加点できていることがわかった。
(ii) 機械翻訳タスクにおける品質推定
複数言語のデータを用いて単語穴埋めの事前学習を行ったマスク言語モデルをベースに、言語横断の文間意味的類似度推定モデルを構築した。提案手法では、マスク言語モデルから得られる文ベクトルを、言語情報を表す言語ベクトルと意味情報を表す意味ベクトルに分離する。この意味ベクトルを用いて、入力文と出力文の間の意味的類似度推定を行うことで、人手評価値を使用しない教師なし設定での機械翻訳の品質推定を実現した。実験の結果、多くのベースモデルと言語対の組み合わせにおいて、品質推定の性能を改善できることがわかった。
(i) 文法誤り訂正タスクにおける品質推定
英語の文法誤り訂正システムによる出力文に対して、文法性・流暢性・同義性の3項目に関する人手評価値を付与したデータセットを構築し、公開した。そして、このデータセットを用いて、品質推定モデルを教師あり学習した。実験の結果、我々の品質推定モデルが、正解文に基づく評価指標や既存の品質推定モデルよりも高い人手評価との相関を達成することが明らかになった。また、27種類の誤りに関する詳細な分析の結果、既存モデルがいくつかの種類の誤り訂正に対して減点してしまっているのに対して、提案モデルは全ての種類の誤り訂正に対して適切に加点できていることがわかった。
(ii) 機械翻訳タスクにおける品質推定
複数言語のデータを用いて単語穴埋めの事前学習を行ったマスク言語モデルをベースに、言語横断の文間意味的類似度推定モデルを構築した。提案手法では、マスク言語モデルから得られる文ベクトルを、言語情報を表す言語ベクトルと意味情報を表す意味ベクトルに分離する。この意味ベクトルを用いて、入力文と出力文の間の意味的類似度推定を行うことで、人手評価値を使用しない教師なし設定での機械翻訳の品質推定を実現した。実験の結果、多くのベースモデルと言語対の組み合わせにおいて、品質推定の性能を改善できることがわかった。
- ID情報
-
- 課題番号 : 20K19861
- 体系的課題番号 : JP20K19861
この研究課題の成果一覧
絞り込み
論文
8-
Proceedings of the 9th Workshop on Asian Translation (WAT 2022) 37-43 2022年10月 査読有り
-
Proceedings of the 29th International Conference on Computational Linguistics (COLING 2022) 5240-5245 2022年10月 査読有り
-
自然言語処理 29(2) 669-687 2022年6月 査読有り
-
Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing (EMNLP 2021) 7764-7774 2021年11月 査読有り
-
自然言語処理 28(2) 404-427 2021年6月 査読有り
-
Proceedings of the AACL-IJCNLP 2020 Student Research Workshop (AACL-IJCNLP 2020 SRW) 153-159 2020年12月 査読有り
-
Proceedings of the 28th International Conference on Computational Linguistics (COLING 2020) 6516-6522 2020年12月 査読有り
-
Proceedings of the Fifth Conference on Machine Translation (WMT 20) 1037-1041 2020年11月