2020年4月 - 2023年3月

古典漢文依存文法コーパスにもとづく係り受け構造の自動抽出

日本学術振興会科学研究費助成事業基盤研究(B) 基盤研究(B)

課題番号

20H04481

体系的課題番号

JP20H04481

配分額

(総額): 17,420,000円
(直接経費): 13,400,000円
(間接経費): 4,020,000円

本研究は、これまでわれわれがおこなってきた古典漢文の形態素解析および依存文法解析を、さらにもう一歩進めて、古典漢文の構文解析へとつなげることを目的とする。現在のところ、現代中国語に対しては、このような形態素解析・構文解析の研究がおこなわれているものの、古典漢文に対しては、われわれを除いてほとんど手つかずの状態である。本研究によって、古典漢文の係り受け構造を、単語と単語の間、節と節の間、さらには文と文の間にまで自動抽出できるようになれば、白文のままで放置されている大量の古典漢文テキストを、コンピュータを用いて自然言語処理できる可能性が、さらに進むと考えられる。
本研究では、古典漢文に対し形態素解析と依存文法解析をおこなった上で、単語と単語の間の係り受け関係、節と節の間の係り受け関係、文と文の間の係り受け関係を、自動抽出する手法の構築をおこなう。この手法を構築するために、各レベル（単語・節・文）での係り受け関係を記述するための文法と、その文法にもとづくTreebankの構築を並行しておこない、単語・節・文の順に、係り受け関係を自動抽出する手法を完成する予定である。
本年度(2021年度)は、古典中国語の言語モデルであるRoBERTa-Classical-Chinese (baseモデルおよびlargeモデル)をファインチューニングする形で、白文から文と節を切り出す手法について研究をおこない、それらの係り受け解析に挑戦した。具体的には、系列ラベリングにより文の切れ目を抽出し、同時に品詞付与と係り受け解析をおこなうことで、節レベルでの係り受け解析までは、かなりの精度でおこなえるようになった。また、これまでの成果を論文『古典中国語（漢文）Universal Dependenciesとその応用』として、情報処理学会論文誌2022年2月号に掲載した。

リンク情報

KAKEN: https://kaken.nii.ac.jp/grant/KAKENHI-PROJECT-20H04481

ID情報

課題番号 : 20H04481
体系的課題番号 : JP20H04481

この研究課題の成果一覧

絞り込み

論文

古典中国語（漢文）Universal Dependenciesとその応用

安岡孝一, ウィッテルンクリスティアン, 守岡知彦, 池田巧, 山崎直樹, 二階堂善弘, 鈴木慎吾, 師茂樹, 藤田一乘

情報処理学会論文誌 63(2) 355-363 2022年2月査読有り

講演・口頭発表等

Nico Nolden and Eugen Pfister. “Gaming and Digital Public History”.

師茂樹

第6回関西デジタルヒストリー研究会「Handbook of Digital Public History書評会（その１）」 2022年7月24日関西デジタルヒストリー研究会
morogram: Background, History, and Purpose of a Tool for East Asian Text Analysis

師茂樹

古代文献の言語分析から読み解く社会背景のダイナミズム 2021年2月12日 SPIRITSプロジェクト「データ駆動型科学が解き明かす古代インド文献の時空間的特徴」招待有り

守岡知彦

共同研究・競争的資金等の研究課題

古典漢文依存文法コーパスにもとづく係り受け構造の自動抽出

この研究課題の成果一覧

論文

講演・口頭発表等

メニュー

共著者の一覧