2020年4月 - 2024年3月

品質推定に基づく半教師あり機械翻訳

日本学術振興会科学研究費助成事業若手研究若手研究

梶原智之

課題番号

20K19861

体系的課題番号

JP20K19861

担当区分

研究代表者

配分額

(総額): 4,030,000円
(直接経費): 3,100,000円
(間接経費): 930,000円

本研究では、自然言語処理モデルによる出力文を正解文なしで自動評価する品質推定に取り組み、これを活用して半教師ありの設定で機械翻訳をはじめとするテキスト生成モデルを訓練する。今年度は、入力文と出力文が同一言語である文法誤り訂正タスクと、入力文と出力文が異言語である機械翻訳タスクの両方において、品質推定モデルの改善に取り組んだ。
(i) 文法誤り訂正タスクにおける品質推定
英語の文法誤り訂正システムによる出力文に対して、文法性・流暢性・同義性の3項目に関する人手評価値を付与したデータセットを構築し、公開した。そして、このデータセットを用いて、品質推定モデルを教師あり学習した。実験の結果、我々の品質推定モデルが、正解文に基づく評価指標や既存の品質推定モデルよりも高い人手評価との相関を達成することが明らかになった。また、27種類の誤りに関する詳細な分析の結果、既存モデルがいくつかの種類の誤り訂正に対して減点してしまっているのに対して、提案モデルは全ての種類の誤り訂正に対して適切に加点できていることがわかった。
(ii) 機械翻訳タスクにおける品質推定
複数言語のデータを用いて単語穴埋めの事前学習を行ったマスク言語モデルをベースに、言語横断の文間意味的類似度推定モデルを構築した。提案手法では、マスク言語モデルから得られる文ベクトルを、言語情報を表す言語ベクトルと意味情報を表す意味ベクトルに分離する。この意味ベクトルを用いて、入力文と出力文の間の意味的類似度推定を行うことで、人手評価値を使用しない教師なし設定での機械翻訳の品質推定を実現した。実験の結果、多くのベースモデルと言語対の組み合わせにおいて、品質推定の性能を改善できることがわかった。

リンク情報

KAKEN: https://kaken.nii.ac.jp/grant/KAKENHI-PROJECT-20K19861

ID情報

課題番号 : 20K19861
体系的課題番号 : JP20K19861

この研究課題の成果一覧

絞り込み

受賞

2022年3月

言語処理学会第28回年次大会若手奨励賞, 多言語文符号化器の言語表現と意味表現の分離に基づく機械翻訳の品質推定

黒田勇斗, 梶原智之, 荒瀬由紀, 二宮崇

論文

Comparing BERT-based Reward Functions for Deep Reinforcement Learning in Machine Translation

Yuki Nakatani, Tomoyuki Kajiwara, Takashi Ninomiya

Proceedings of the 9th Workshop on Asian Translation (WAT 2022) 37-43 2022年10月査読有り
Adversarial Training on Disentangling Meaning and Language Representations for Unsupervised Quality Estimation

Yuto Kuroda, Tomoyuki Kajiwara, Yuki Arase, Takashi Ninomiya

Proceedings of the 29th International Conference on Computational Linguistics (COLING 2022) 5240-5245 2022年10月査読有り
多言語雑音除去自己符号化器による教師なし品質推定

西原哲郎, 岩本裕司, 吉仲真人, 梶原智之, 荒瀬由紀, 二宮崇

自然言語処理 29(2) 669-687 2022年6月査読有り
Language-agnostic Representation from Multilingual Sentence Encoders for Cross-lingual Similarity Estimation

Nattapong Tiyajamorn, Tomoyuki Kajiwara, Yuki Arase, Makoto Onizuka

Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing (EMNLP 2021) 7764-7774 2021年11月査読有り
文法誤り訂正の参照文を用いない自動評価の人手評価への最適化

吉村綾馬, 金子正弘, 梶原智之, 小町守

自然言語処理 28(2) 404-427 2021年6月査読有り
Text Simplification with Reinforcement Learning using Supervised Rewards on Grammaticality, Meaning Preservation, and Simplicity

Akifumi Nakamachi, Tomoyuki Kajiwara, Yuki Arase

Proceedings of the AACL-IJCNLP 2020 Student Research Workshop (AACL-IJCNLP 2020 SRW) 153-159 2020年12月査読有り
SOME: Reference-less Sub-Metrics Optimized for Manual Evaluations of Grammatical Error Correction

Ryoma Yoshimura, Masahiro Kaneko, Tomoyuki Kajiwara, Mamoru Komachi

Proceedings of the 28th International Conference on Computational Linguistics (COLING 2020) 6516-6522 2020年12月査読有り
TMUOU Submission for WMT20 Quality Estimation Shared Task

Akifumi Nakamachi, Hiroki Shimanaka, Tomoyuki Kajiwara, Mamoru Komachi

Proceedings of the Fifth Conference on Machine Translation (WMT 20) 1037-1041 2020年11月

梶原智之

共同研究・競争的資金等の研究課題

品質推定に基づく半教師あり機械翻訳

この研究課題の成果一覧

受賞

論文

メニュー

共著者の一覧