共同研究・競争的資金等の研究課題

2019年4月 - 2020年3月

精緻な文字表記情報を持つ近代新聞コーパスの構築による表記・文体変遷の計量的研究

日本学術振興会  科学研究費助成事業 研究活動スタート支援  研究活動スタート支援

課題番号
19K20819
体系的課題番号
JP19K20819
配分額
(総額)
2,990,000円
(直接経費)
2,300,000円
(間接経費)
690,000円

本研究の目的は,社会と言語が大きく変化した近代から現代にかけて,語の使用の実態とその変遷を明らかにすると共に,資料の形式・表記・文体が,メディアの発達,読者層の変化,社会の変化とどのように関わりながら変化したかを明らかにすることである.そのために,幕末明治初期に誕生し,形式・形態・表記・文体すべてにおいて急速に変化・発展しながら現代へと途切れなく続く「新聞」というメディアを研究対象として選択し,資料の形式や言語の表記についての,大量かつ精緻な実態把握に基づき,言語変化の様相と,その背景としての人間・人間活動の変化変遷を関連付けて論じることを試みることとした.
本年度は,新聞に見られる言語変化の実態把握に用いるためのコーパス(新聞本文を言語研究に利用できる形で電子化したデータベース)の構築に取り組んだ.具体的には,明治・大正期から現代まで存続する新聞のうち,明治期の年間発行部数が多く,庶民を読者層として平易な談話体と傍訓に特徴のある,いわゆる「小新聞」(土屋礼子『大衆 紙の源流 明治期小新聞の研究』,世界思想社,2002年)の一つ,『読売新聞』を採録対象とし,発刊の明治7(1874)年から一定期間おきに,1年につき8~10万語程度を含む,約60~80万語分のコーパスを作ることとし,本文の文字入力(外部業者への業務委託による)と整備を実施した.
コーパス作成にあたっては,本文本行の文字をできる限り精緻に写すため,日本語を記述する文字(漢字や変体仮名を含む仮名文字)のセットとして最新の国際規格である「Unicode11.0」を用いて文字の記述を行うこととし,入力した新聞の本文に対して,Unicodeのコードポイント情報を付与するタグ付けを実施した.

リンク情報
URL
http://kaken.nii.ac.jp/file/KAKENHI-PROJECT-19K20819/19K20819seika.pdf
KAKEN
https://kaken.nii.ac.jp/grant/KAKENHI-PROJECT-19K20819
ID情報
  • 課題番号 : 19K20819
  • 体系的課題番号 : JP19K20819