研究ブログ
放射線アーカイブ
日経新聞サイトに放射線データの「保管庫」を 健康調査や除染計画に不可欠(2013/9/11 7:00)という記事が出ていた。
放射線データアーカイブについては,すでにいろいろ発言しているが,ここにまとめておく。
まずは,何らかの具体的な情報を掲載したWeb上の資料(PDFファイルなど)は,消されたり編集されたり「サイトの整理」で行方不明になったりしないうちに,メタデータを付けてアーカイブすべきである。
資料の数から考えて,メタデータを人力で入力するのは無理である。Googleはメタデータの入力などしていないが,十分役に立つ検索結果を返す。
メタデータ生成の方法の一つとして,例えばMacならmdlsコマンドでいろいろな情報が取得できる。昨日の厚労省発表のPDFの一つをmdlsした結果の一部を挙げておく:
kMDItemAuthors = ( KNBRG ) kMDItemContentCreationDate = 2013-09-11 11:55:22 +0000 kMDItemContentModificationDate = 2013-09-11 11:55:22 +0000 kMDItemDisplayName = "0000022738.pdf" kMDItemDownloadedDate = ( "2013-09-11 11:55:23 +0000" ) kMDItemEncodingApplications = ( "JUST PDF 2" ) kMDItemKind = "Portable Document Format(PDF)" kMDItemNumberOfPages = 27 kMDItemTitle = "(1)【H25.9.11】自治体" kMDItemWhereFroms = ( "http://www.mhlw.go.jp/file/04-Houdouhappyou-11135000-Shokuhinanzenbu-Kanshianzenka/0000022738.pdf", "http://www.mhlw.go.jp/stf/houdou/0000022730.html" )
作成者は「KNBRG」でなく「厚生労働省医薬食品局食品安全部監視安全課」としてほしいところである。タイトルも「食品中の放射性物質の検査結果について(第725報)1 自治体から入手した放射性物質の検査結果」であろう。幸いmdlsの出力にはリンク元URLが付いているので,それを見ればタイトルや作成者がわかる。一般にPDFファイルはそれだけではコンテクストがわからないことが多いので,リンク元のHTMLファイル(上の例ではhttp://www.mhlw.go.jp/stf/houdou/0000022730.html)ごとアーカイブする必要がある。
次に,アーカイブしたファイルからデータを抽出してデータベース化する。PDFファイルからの抽出はけっこう手間がかかる。Excelファイルであっても,いわゆる「ネ申Excel」状態のものがあり,きれいなデータにするにはやはり手間がかかることが多い。
抽出したデータは,いわゆるREST形式(URLでデータを特定できる形式)で公開するべきである。原子力規制委員会が文科省から引き継いだ放射線モニタリング情報は,データがCSV形式でダウンロードできるが,メニューから例えば「福島:県北」→「福島市」→「福島市 紅葉山公園」のようにたどる必要がある。一覧はしばしば非常に長く,一定の順序になっていないので,選ぶのに手間がかかる。どの地点を選んでもURLは変わらないので,URL指定でリンクできない(奥の手はあるかもしれない)。
放射線モニタリング情報には古い情報は入っていない。例えば「福島:相双」→「双葉町」→「双葉町 郡山(郡山公民館)」では2012年3月31日以降のデータしか出てこない(私のサイトには2011年9月13日以降のCSVファイルがある)。古いデータも補ってデータベースにする必要がある。