2019年4月 - 2023年3月
昭和・平成書き言葉コーパスによる近現代日本語の実証的研究
日本学術振興会 科学研究費助成事業 基盤研究(A) 基盤研究(A)
国立国語研究所を中心とするコーパス構築班(小木曽・間淵・田中・近藤・高橋)と、研究分担者の全員(小木曽・間淵・田中・小椋・金・永澤・松田・持橋・近藤・高橋)が参加するコーパス応用班に分かれて研究活動を行った。
本年度のコーパス構築班では、期間中に構築を予定しているコーパス(1933年から1997年までの8年おき9年分の雑誌・新聞・ベストセラー書籍)のデータ作成のうち、雑誌サブコーパスのXMLによる構造化と、新聞サブコーパスのテキスト入力、ベストセラー書籍の原本の入手とその一部のOCRによるテキスト化を行った。また、雑誌については形態素解析済みデータの整備・未知語の辞書登録作業を行った。日本語学会秋季大会では、本コーパスの構築についての研究発表を行った。
コーパス応用班では、公開の研究発表会を1回主催したほか、国語研「通時コーパス」プロジェクトとの共催によるシンポジウムを2回、非公開の研究会を1回開催し、CHJ・BCCWJと本研究課題で構築した雑誌のデータを用いた近現代日本語の研究発表を行った。このほか、論文3編、研究発表10件と十分な実績をあげることができた。
言語変化の統計モデリングについては、国立国語研究所新領域創出型プロジェクト「現代語の意味の変化に対する計算的・統計力学的アプローチ」と共同で、新たに作成したデータを活用し単語分散表現を用いた言語変化の研究を行ない、言語処理学会において2件の研究発表を行った。
本年度のコーパス構築班では、期間中に構築を予定しているコーパス(1933年から1997年までの8年おき9年分の雑誌・新聞・ベストセラー書籍)のデータ作成のうち、雑誌サブコーパスのXMLによる構造化と、新聞サブコーパスのテキスト入力、ベストセラー書籍の原本の入手とその一部のOCRによるテキスト化を行った。また、雑誌については形態素解析済みデータの整備・未知語の辞書登録作業を行った。日本語学会秋季大会では、本コーパスの構築についての研究発表を行った。
コーパス応用班では、公開の研究発表会を1回主催したほか、国語研「通時コーパス」プロジェクトとの共催によるシンポジウムを2回、非公開の研究会を1回開催し、CHJ・BCCWJと本研究課題で構築した雑誌のデータを用いた近現代日本語の研究発表を行った。このほか、論文3編、研究発表10件と十分な実績をあげることができた。
言語変化の統計モデリングについては、国立国語研究所新領域創出型プロジェクト「現代語の意味の変化に対する計算的・統計力学的アプローチ」と共同で、新たに作成したデータを活用し単語分散表現を用いた言語変化の研究を行ない、言語処理学会において2件の研究発表を行った。
- ID情報
-
- 課題番号 : 19H00531
- 体系的課題番号 : JP19H00531
この研究課題の成果一覧
絞り込み
論文
5-
情報処理学会誌 65(2) 278-291 2024年2月 査読有り
-
国語語彙史の研究 (42) 左97-左116 2023年3月31日 査読有り筆頭著者
-
論究日本近代語 第2集 2 221-234 2022年3月14日 査読有り
-
国語語彙史の研究 (40) 左81-左100 2021年8月15日 査読有り筆頭著者
-
立命館白川靜記念東洋文字文化研究所紀要 (13) 85-98 2020年3月 査読有り筆頭著者
MISC
2-
日本語学 39(2) 98-101 2020年6月 招待有り筆頭著者
書籍等出版物
1-
朝倉書店 2020年7月1日 (ISBN: 9784254516654)
講演・口頭発表等
13-
言語処理学会第30回年次大会併設WS 「日本語言語資源の構築と利用性の向上」(JLR2024) 2024年3月15日
-
「通時コーパス」シンポジウム2024 2024年3月10日
-
第2回現代日本語史研究会 2023年8月8日
-
日本語学会2023年度春季大会 ワークショップ「『昭和・平成書き言葉コーパス』の構築と公開」 2023年5月21日 日本語学会
-
日本語学会2023年度春季大会 2023年5月21日
-
SHC科研研究会 2022年8月29日
-
言語処理学会第28回年次大会(NLP2022) 2022年3月17日 言語処理学会
-
「通時コーパス」シンポジウム2022 2022年3月13日 国立国語研究所「通時コーパスの構築と日本語史研究の新展開」プロジェクト
-
「通時コーパス」シンポジウム2022 2022年3月13日
-
第46回社会言語科学会研究大会 2022年3月4日
Works(作品等)
2-
2023年6月 データベース
-
2023年3月 データベース