共同研究・競争的資金等の研究課題

2020年4月 - 2023年3月

古典漢文依存文法コーパスにもとづく係り受け構造の自動抽出

日本学術振興会  科学研究費助成事業 基盤研究(B)  基盤研究(B)

課題番号
20H04481
体系的課題番号
JP20H04481
配分額
(総額)
17,420,000円
(直接経費)
13,400,000円
(間接経費)
4,020,000円

本研究は、これまでわれわれがおこなってきた古典漢文の形態素解析および依存文法解析を、さらにもう一歩進めて、古典漢文の構文解析へとつなげることを目的とする。現在のところ、現代中国語に対しては、このような形態素解析・構文解析の研究がおこなわれているものの、古典漢文に対しては、われわれを除いてほとんど手つかずの状態である。本研究によって、古典漢文の係り受け構造を、単語と単語の間、節と節の間、さらには文と文の間にまで自動抽出できるようになれば、白文のままで放置されている大量の古典漢文テキストを、コンピュータを用いて自然言語処理できる可能性が、さらに進むと考えられる。
本研究では、古典漢文に対し形態素解析と依存文法解析をおこなった上で、単語と単語の間の係り受け関係、節と節の間の係り受け関係、文と文の間の係り受け関係を、自動抽出する手法の構築をおこなう。この手法を構築するために、各レベル(単語・節・文)での係り受け関係を記述するための文法と、その文法にもとづくTreebankの構築を並行しておこない、単語・節・文の順に、係り受け関係を自動抽出する手法を完成する予定である。
本年度(2021年度)は、古典中国語の言語モデルであるRoBERTa-Classical-Chinese (baseモデルおよびlargeモデル)をファインチューニングする形で、白文から文と節を切り出す手法について研究をおこない、それらの係り受け解析に挑戦した。具体的には、系列ラベリングにより文の切れ目を抽出し、同時に品詞付与と係り受け解析をおこなうことで、節レベルでの係り受け解析までは、かなりの精度でおこなえるようになった。また、これまでの成果を論文『古典中国語(漢文)Universal Dependenciesとその応用』として、情報処理学会論文誌2022年2月号に掲載した。

リンク情報
KAKEN
https://kaken.nii.ac.jp/grant/KAKENHI-PROJECT-20H04481
ID情報
  • 課題番号 : 20H04481
  • 体系的課題番号 : JP20H04481

この研究課題の成果一覧

論文

  1

講演・口頭発表等

  2