研究ブログ

研究ブログ >> 記事詳細

2016/11/11

『日本古典籍データセット』の「本文」

Tweet ThisSend to Facebook | by 岡島昭浩
『日本古典籍データセット』(国文学研究資料館蔵)はクリエイティブ・コモンズ 表示 - 継承 4.0 国際 ライセンス(CC BY-SA)の下に提供されています。
その、2015.11に公開されたデータの内、「本文」のみを抽出し、そのまま、ここ↓に置いてあります。
https://app.box.com/s/b5q99w6qvkh0oofi1vtent2kt27lwbex


オリジナルで公開されているものは、画像ファイルと伴にZIPファイルとしてダウンロードすることになっており、「本文」が欲しい場合、大きなファイルをダウンロードして、そのごく一部を使うということになり、手間が掛かりますので、抽出した次第です。

源氏物語と二十一代集はテキストファイル、ほかは三点はワードファイルです。

オリジナルの在処


どなたかがやってくださるだろうと思っていたのですが、それらしいものに気づかないうちに一年経過したことに気付き、これを機に纏めたものです。

なお、2016.11に公開されたものには、「本文」は無いようでした。



なお、画像を見るには、上記オリジナルサイトよりも、人文情報学研究所の永崎研宣さんによる
国文研データセット簡易Web閲覧
http://www2.dhii.jp/nijl_opendata/openimages.php
が見やすくなっています。



13:50 | 投票する | 投票数(1) | コメント(1)
コメント
岡島昭浩2016/11/27 17:07:47
源氏物語・二十一代集のテキストデータは、
http://base1.nijl.ac.jp/~selectionfulltext/
こちらで、半丁ずつ、一首ずつ見ることも出来ます。


「表記で使用する記号」の、2016.11現在のURLは、
http://base1.nijl.ac.jp/~selectionfulltext/
です。