2014年
構造と構成要素に基づく学術論文の自動判定
日本図書館情報学会誌
- 巻
- 60
- 号
- 1
- 開始ページ
- 18
- 終了ページ
- 34
- 記述言語
- 日本語
- 掲載種別
- 研究論文(学術雑誌)
- DOI
- 10.20651/jslis.60.1_18
- 出版者・発行元
- 日本図書館情報学会
ウェブ上に存在するPDFファイル群から学術論文を自動的に判定する手法の開発を目的とした。まず,学術論文の構成要素と構造がどのように発達してきたかを調査した。英語と日本語の学術論文1,172件に対して,それらが顕れているかを調査した。その結果,論文は共通した構成要素を有しており,見出しを持つ論文のうち40%近くがIMRAD形式またはそれに近い構造を採っていた。次に,これらの結果をもとに,学術論文を自動的に判定するためのルールを構築した。ウェブ上から無作為に収集した英語と日本語のPDFファイル集合を用いて判定性能を実験したところ,ランダムフォレストによる判定器を用いた場合,F値は英語集合では0.74,日本語集合では0.53であった。これらの結果から,本研究で用いたアプローチにより構築した判定ルールにより,ウェブ上に存在するPDFファイル群から学術論文を自動的に判定できる可能性が示唆された。
- リンク情報
- ID情報
-
- DOI : 10.20651/jslis.60.1_18
- ISSN : 1344-8668
- CiNii Articles ID : 110009816038
- CiNii Books ID : AA11333306