2019年4月 - 2023年3月
日常対話コーパスにおける述語項構造アノテーションの作成と分析
日本学術振興会 科学研究費助成事業 若手研究
本研究では、近年公開された大規模日常会話コーパス『日本語日常会話コーパス(Corpus of Everyday Japanese Conversation, CEJC)』に、語の意味表現のひとつである「述語項構造」の情報を付与した『「話し言葉」の述語項構造コーパス』のアノテーションデータを開発及び分析に取り組んでいる。従来、文の意味理解のために「述語項構造」の研究が活発に進められてきたが、これらの研究は主に「書き言葉」が主眼であった。「話し言葉」特有の言語現象を分析するために、このCEJCに述語項構造の情報を付与したコーパスを付与する方針で作業を進めてきた。
現在、話し言葉に特化した述語項構造解析ソフトウェア及び、話し言葉用の述語項構造データは公開されていない。そのため初年度である平成31年度の間に、話し言葉における述語項としてのアノテーションの仕様を定め、ベースとなる述語項構造解析ソフトウェアの開発に取り組むことにより大規模な話し言葉の述語項構造コーパスを開発する予定であった。
しかしCEJCを分析していくにつれ、話し言葉における述語項構造には想定以上に話し言葉特有の様々な言語現象があることが判明し、既存の枠組みの範疇を超えた枠組みの制定が必要であることが判明した。その結果、具体的にCEJCにアノテーションの仕様を定めるにはテキストについてアノテーションを付与するだけではなく、ビデオ操作をしながらも述語項のアノテーション作業をしてもらう必要がある。そのため、アノテーション仕様を適切に定めた上で、一定時間をかけて作業者の訓練が必要であることがわかった。しかし、そのアノテーション付与者の人材確保が間に合わず、完了している作業としては、CEJCの話し言葉会話データについての分析段階にとどまっている。
現在、話し言葉に特化した述語項構造解析ソフトウェア及び、話し言葉用の述語項構造データは公開されていない。そのため初年度である平成31年度の間に、話し言葉における述語項としてのアノテーションの仕様を定め、ベースとなる述語項構造解析ソフトウェアの開発に取り組むことにより大規模な話し言葉の述語項構造コーパスを開発する予定であった。
しかしCEJCを分析していくにつれ、話し言葉における述語項構造には想定以上に話し言葉特有の様々な言語現象があることが判明し、既存の枠組みの範疇を超えた枠組みの制定が必要であることが判明した。その結果、具体的にCEJCにアノテーションの仕様を定めるにはテキストについてアノテーションを付与するだけではなく、ビデオ操作をしながらも述語項のアノテーション作業をしてもらう必要がある。そのため、アノテーション仕様を適切に定めた上で、一定時間をかけて作業者の訓練が必要であることがわかった。しかし、そのアノテーション付与者の人材確保が間に合わず、完了している作業としては、CEJCの話し言葉会話データについての分析段階にとどまっている。
- ID情報
-
- 課題番号 : 19K13195
- 体系的課題番号 : JP19K13195
この研究課題の成果一覧
絞り込み
MISC
2-
言語処理学会第30回年次大会発表論文集 1345-1350 2024年3月
-
言語処理学会第30回年次大会発表論文集 1469-1474 2024年3月