研究ブログ

12345
2016/05/20

オープンサイエンスを読み解く:「つくばコミュニケ」と関連報道から

Tweet ThisSend to Facebook | by kitamoto
2016年5月15日から17日にかけて、つくば市でG7 茨城・つくば科学技術大臣会合が開催され、その成果として「つくばコミュニケ」が採択された。これは、カナダ、フランス、ドイツ、イタリア、日本、英国、米国の科学技術担当大臣と、欧州委員会の研究・科学・イノベーション担当委員による共同声明である。その全文が、以下のウェブサイトで公開されている。

G7茨城・つくば科学技術大臣会合 2016年5月15日~17日
関連会合文書 | 文書・資料 | 伊勢志摩サミット

このつくばコミュニケでは、インクルーシブ・イノベーションとオープンサイエンスが分野横断的課題、グローバルヘルス、次世代の科学技術イノベーション人材育成・女性活躍推進、海洋の未来、クリーンエネルギーが個別課題と位置づけられ、これらの課題に取り組むための科学技術イノベーションに関する議論があった。

このつくばコミュニケの内容、そしてそれに関するメディア報道から、オープンサイエンスを読み解くというのが本記事の趣旨である。

最初に、つくばコミュニケをメディアがどう報じたのかから読み解いていこう。Google Newsを「オープンサイエンス」で検索し、つくばコミュニケに言及する記事を拾って、オープンサイエンスに関する記述を抽出してみたのが以下である。なお、以下の記事以外にもつくばコミュニケに言及した記事はあるが、オープンサイエンスという単語を含まない記事は除外した。

毎日新聞:G7科技相会合 声明履行へ、日本意欲 海洋観測網強化
オープンサイエンスについては「公的な研究成果を企業や市民が活用できれば、さらなる成果が期待できる」と指摘。会合では、個人情報保護や経済競争などに配慮しつつ、推進策を検討する作業部会の設置に合意した。

東京新聞:G7科技相会合が閉幕 「防災の協力推進」追加
共同声明には、人類にかかわる二つの原則を反映させた。年齢やジェンダー、言語、地域を問わず、全ての人に科学技術で繁栄をもたらす「インクルーシブ(包摂的な)イノベーション」と、科学データを学術関係者だけでなく、民間企業や一般市民とも共有する「オープンサイエンス」だ。
 記者会見では、「科学は社会全ての人にとって役立たなければならない」(英国)、「科学技術の世界規模の課題には協力しなければならない。より良い科学を市民に広げることが必要」(EU)などの意見が出た。

中日新聞:高齢化は技術革新で対処 G7科技相会合、声明採択し閉幕
研究成果やデータを研究者以外にも公開し、市民科学の裾野を広げるための「オープンサイエンス」の推進も決めた。

茨城新聞:G7茨城・つくば科技相会合 地球規模の課題解決へ
このほか、海洋の生物多様性を維持するための国際的な観測態勢の強化や、研究成果やデータを研究者以外にも公開する「オープンサイエンス」の推進などに取り組んでいく。

SankeiBiz: 高齢化への研究を推進 G7科学技術相会合が共同声明
公的資金による研究成果を企業や市民が入手できる「オープンサイエンス」を推進することも盛り込んだ。

日本経済新聞:感染症研究で連携加速 G7科技相会合で共同声明
各国は実験データをやりとりする「オープンサイエンス」と呼ぶ手法で連携し、研究を加速する。国際ルールづくりに向け、作業部会の設置も決めた。

記事のタイトルにオープンサイエンスを入れたものは、残念ながら見つからなかった。その代わりにタイトルで取り上げられたキーワードは、高齢化2、海洋1、防災1、感染症1であり、やはり日本として高齢化が最大の関心事ということになろう。それらの具体的な課題と比較すればオープンサイエンスは明確なイメージが描きにくいことは否めず、各社とも記事の最後の方で言及するにとどまった。

次に記事本文におけるオープンサイエンスの取り上げ方を見てみよう。

まず研究成果のオープン化について。毎日新聞は「活用」、東京新聞は「共有」、中日新聞と茨城新聞は「公開」、SankeiBizは「入手」、日本経済新聞は「連携」という言葉で表現しており、各社の表現が異なる点は興味深い。この表現の違いは記者・編集者の視点の違いによるものであろう。「活用」と「入手」は市民側からの視点、「公開」は研究側からの視点、そして「共有」は両方を俯瞰した視点である。なお日本経済新聞の「連携」は研究側に閉じた視点であり、他とは異なり市民という視点は入っていない。

次に市民科学について。明示的に言及したのは中日新聞だけで、その他はあまり触れていないのは、そこがあまり印象的に思えなかったためだろうか。また作業部会の設置に触れたのは毎日新聞と日本経済新聞、個人情報保護や経済競争に触れたのは毎日新聞と、ここでも力点の置き方に違いがある。最後に日本経済新聞だけがオープンサイエンスを「手法」と呼んでいるが、実際のところオープンサイエンスという特定の手法があるわけではないので、ここはもう少し説明が必要な箇所かもしれない。

このように、つくばコミュニケとその記者会見は、オープンサイエンスに関してかなり幅のある印象を与えたようである。ただし研究成果の公開・共有・活用にはすべての記事が触れていることを踏まえると、オープンサイエンスは研究成果のオープン化に関するものであるというのが、各社共通の理解になったと言えそうである。

さて、これらの報道が参照する「つくばコミュニケ」であるが、そもそもこの文書には何が書かれているのだろうか。5月19日時点で公開されている原文(英語)および日本語訳版(仮訳:暫定版)を参照しながら、元のテキストを読み解いてみたい。後述するように、原文と日本語訳には内容に違いがあるため、本来なら正式な日本語訳を待ってから内容を理解すべきかもしれないが、原文と日本語訳の不一致自体からコミュニケの編集過程に関する情報がにじみ出ている可能性もあるため、ひとまず仮訳を参照した比較を行う。

まずオープンサイエンスについて、序文(Introduction)に以下の言及がある。

Furthermore, we acknowledged that Open Science can change the way research and development (R&D) is undertaken, with emerging findings leading to far greater global collaboration and encouraging a much broader range of participants and stakeholders. We also recognized the importance of Open Science as a driver for greater inclusion in R&D, for example with the emergence of citizen science.


さらに我々は、オープンサイエンスは研究開発(R&D)のあり方を変えることができ、その結果として国際連携の強化や参加者・ステークホルダーの拡大につながる可能性があることを認めた。 また我々は、市民科学の台頭に代表されるような R&D における包摂性を推進する上でも、オープンサイエンスが重要な役割を果たすことを認識した。

オープンサイエンスの定義は様々であるが、序文ではコミュニケの重要コンセプトである「インクルージョン」と関連付け、誰でも分け隔てなく共に参加するサイエンスという観点からオープンサイエンスのイメージが描き出されている。その一例が市民科学であり、たとえば最近の記事幻だった(?)マヤ遺跡発見:宇宙考古学と市民科学と人文情報学の視点もこれに関連する話題である。インクルージョンという目的を達成するための手段としてのオープン性に焦点を合わせているとも言えるだろう。これもオープンサイエンスの一側面である。

続いて本文では、オープンサイエンスに関する主題と副題が提示される。

6: Open Science‐Entering into a New Era for Science
Putting into Practice New Framework of Research and Knowledge Discovery, Sharing, and Utilization through Openness

6: オープンサイエンス-サイエンスの新たな時代の幕開け
オープン化をベースとした、研究と知識の発見・共有・活用に関する新しいフレームワークの導入

本文では、サイエンスに関係者を巻き込んでいくというインクルージョンのコンセプトは弱まり、むしろサイエンスを外に開くことで社会の利活用を進めていく方向に力点が移っている。

Open science enables broad and straightforward access to and use of the results of publicly funded research (e.g. scholarly publications and resultant data sets) not only for academics, but also the private sector and the general public more broadly.

オープンサイエンスは、学術関係者だけでなく、民間企業や一般市民が、幅広い分野の公的資金による研究成果(論文や関連するデータセット等)に直接アクセスできるようにするものである。

最初のポイントは、論文へのオープンアクセスやオープンデータである。オープンデータといえば、2013年のロンドンサミットでオープンデータが取り上げられたことがよく話題に上るが、オープンデータ憲章(概要)にも説明があるように、当時の主な対象は「政府データ」であった。今回はこれが「公的資金による研究成果」に変わった点が、一つの大きな違いである。

Fundamental to the progress of open science is the continued investment by governments and others, such as the Group on Earth Observations’ Global Earth Observation System of Systems (GEOSS), in suitable infrastructures and services for data collection, analysis, preservation and dissemination. These systems and services offer a new approach to research, creating the possibilities for new scientific developments and increasing the returns from government investment in research. We endorsed this approach and decided to promote open science, taking in to account the particular characteristics of individual research fields.

オープンサイエンスの推進には、例えば地球観測に関する政府間会合が構築した全球地球観測システム(GEOSS)のように、政府機関やその他機関が、データ収集、解析、保存、公表のための適切なインフラとサービスに継続的に投資を行うことが必須である。このようなシステムは科学研究に新たなアプローチを提供し、新しい科学の発展の可能性をもたらすとともに、政府が投資した研究からの見返りを大きくするという側面を持っている。

ここではGEOSSという固有名詞の明記が目を引く。地球観測データは、グローバルなデータ共有による社会課題解決というイメージに最も適合するからだろうか。ちなみに私も参加するDIASプロジェクトは、GEOSSに対する日本からの参加主体となっているプロジェクトであり、ここでもオープンサイエンスへの取り組みは大きな課題となっている。

There has been an abundance of open science practices in many countries and organizations and in many different fields of science in recent years. We recognized a growing need to share common international principles for open science and to put these principles into practice through open access to scholarly publications and open data.

我々は、このアプローチを支持し、研究分野によって事情や状況が異なることを念頭に置きつつ、オープンサイエンスを推進することに決意した。 オープンサイエンスは、ここ数年、さまざまな国や組織、さまざまな科学の分野で実施されてきた。我々は、オープンサイエンスに関する世界共通の原則が必要になっていること、およびオープンサイエンスは学術論文へのオープンアクセスとオープンデータを含む必要があることを認識した。

この部分はなかなか興味深い。英語と日本語の内容に違いがあり、日本語の冒頭にある歯切れの悪い感じの文章が英語版には存在しない。この違いは仮訳だからなのか、最終段階で削られたからなのか、そのあたりの事情はよくわからない。分野による慣習の違いはオープンサイエンスの議論では必ず問題となるところで、日本に固有の問題ではないはずなのだが、英語版がそうした細かい話をばっさり削った形になっているのは、コミュニケの目的は世界共通の原則をシンプルに打ち出すことにある、との意図があるのかもしれない。

Furthermore, we recognized the importance of stronger foundations for the support of open science, such as incentives for researchers and institutions, support systems and human resources.

さらに、研究者や研究機関にインセンティブを付与するなど、オープンサイエンスを支える基盤を強化することが、オープンなシステムやそれに係る人材を支えることを認識した。

オープンサイエンスを推進するには、なんといっても人材が必要である。そして人材を育てるにはキャリアパスが必要である。そしてキャリアパスを回すためには、インセンティブが必要である。インセンティブの部分がなければ、いくら崇高な目標があってもオープンサイエンスは進まない。しかしインセンティブをどう設計するかは、サイエンスという文化にも深く根ざす問題でもあり、解決には多くの関係者による努力が必要であると思う。

We recognize the need to promote access, taking into consideration privacy, security, and legitimate proprietary rights, and different legal and ethical regimes, as well as global economic competitiveness and other legitimate interests.

我々は、プライバシー、情報セキュリティ、正当な所有権、国や地域によって異なる法倫理、国際的な経済競争力、その他の正当な利益を考慮に入れつつ、オープンアクセスを促進する必要性を認識する。

いくらオープンサイエンスが重要とはいえ、なんでもかんでもオープンにする(できる)わけではない。なぜオープンにできないのか、よく取り上げられる理由を最後にまとめて列挙している。

i. Establish a working group on open science with the aims of sharing open science policies, exploring supportive incentive structures, and identifying good practices for promoting increasing access to the results of publicly funded research, including scientific data and publications, coordinating as appropriate with the Organisation for Economic Cooperation and Development (OECD) and Research Data Alliance (RDA), and other relevant groups

i. オープンサイエンスに関する作業部会を設置して、OECD といった国際機関との連携を視野に入れたオープンサイエンスのポリシーの共有、インセンティブの仕組みの検討、公的資金による研究成果の利用促進のためのグッドプラクティスの特定を行うこと。

仮訳からはなぜかResearch Data Alliance (RDA)が漏れているが、この固有名詞は確かに入れておいた方が良さそうだ。OECDとRDAはオープンサイエンスを主導する2つの大きな国際組織であるが、OECDは主にビジネスの立場から、RDAは学術および資金提供の立場からオープンサイエンスを進めている。

ii. Promote international coordination and collaboration to develop the appropriate technology, infrastructure, including digital networks, and human resources for the effective utilization of open science for the benefit of all.

ii. オープンサイエンスが有効に活用され、すべての人がメリットを享受できるようにする ために、国際的な協調や連携を推進して、デジタルネットワークの整備、人材の確保など、 適切な技術やインフラを整備すること。

作業部会の設置と並んで、技術とインフラと人材を育てるためには国際的な協調と連携が必要であるが、日本はそこにメインプレイヤーとして存在感を出せていないのが現状である。世界に向けて存在感を出せるよう、今後は日本の動きも加速していかねばならない。

以上、つくばコミュニケとメディアの反応、そして私の感想をまとめてみた。なお、オープンサイエンスそのものに関する読み解きは記事の範囲を超えるため、ひとまず以下の資料などを参考にしてほしい。
来週には伊勢志摩サミットにて、オープンサイエンス憲章のような文書が発表される可能性もあるので、それを待ってあらためてオープンサイエンスについて考えてみたい。

12:00 | 投票する | 投票数(2) | コメント(0)
2016/05/12

幻だった(?)マヤ遺跡発見:宇宙考古学と市民科学と人文情報学の視点

Tweet ThisSend to Facebook | by kitamoto
ある少年がマヤの遺跡を発見した!というニュースが世界を駆け巡ったが、残念ながら幻に終わったようだ。この一件の何が問題だったのか、私の研究分野の視点から考えて見たい。

15歳少年のマヤ遺跡「発見」は間違いと専門家 現代の星図と地図を見比べても古代の遺跡は発見できない

このニュースが大きな反響を巻き起こした要因はいくつかあろうが、最大の要因はやはり「星座仮説」ではないだろうか。星座という言葉を聞くだけでロマンチックな気分になるし、子供でも考え付きそうな素朴な仮説であるのも受け入れやすい点だ。これに加えて、少年の仮説どおりに遺跡が見つかったという仮説検証型のストーリーも、鮮やかさを際立たせるためには格好の材料である。これらの要因を揃えた完璧なストーリーが、人々の心を見事に捉えたのであろう。

これらの要因がなぜ効果を発揮したのか、それは発見のストーリーとして考えうる別バージョンのストーリーと比較してみればわかる。例えば、ある天才少年がなんだか難しい数学理論を使って遺跡の場所を予測したというストーリーはどうだろうか。確かにすごいとは思うが、肝心の理論が理解できないと共感できず、ふーんということで終わってしまいそうだ。それとも、あるGoogle Earth好きの少年が、寝る間も惜しんで衛星画像をしらみつぶしに調査して遺跡を発見したというストーリーはどうだろうか。これだと仮説検証型ではなく網羅調査型のストーリーになってしまい、オタク少年が頑張ったという話にしかならないだろう。

つまり、少年による発見+星座仮説+仮説検証型という鮮やかな要素が揃ったストーリーが、そのようなストーリーを欲する人々の欲望にピッタリ当てはまり、世界的に燃え上がったというのが今回の一件ではないだろうか。分かりやす過ぎるストーリーには気をつけるべきというのは、STAP問題の教訓などから学んだことでもあるが、今回の鮮やか過ぎるストーリーにもどこか作為的な部分はなかっただろうか。広報戦略の失敗という意味では、STAP問題と似た面があるのかもしれない。



さて、これまでに検討した余分な修飾物を取り除いたストーリーを対象として、私の研究分野である宇宙考古学と市民科学と人文情報学の視点から検討してみよう。

最初に宇宙考古学の視点から。実は、衛星画像から遺跡を発見するという方法論自体は、以前から多くの研究者に利用されている正当な方法と言ってよい。宇宙から地表を観測する技術は、センサの位置が地表から離れているという意味でリモートセンシングと呼ばれるが、そうしたリモートセンシング技術を用いた遺跡探索を「宇宙考古学」と呼ぶ人もいるほど、よく知られた研究分野でもある。

遺跡を地上から探そうが、宇宙から探そうが、観測方法に根本的な違いがあるわけではなく、どのセンサをどの視点からどの解像度で使うかという点が違うに過ぎないとも言える。とはいえ、両者では得意なことが異なる。宇宙から探す場合のメリットは、ジャングルでも砂漠でもどこでも観測できるという点、そして広い範囲を一度に観測できるという点にある。特に後者の広域性は、巨大な構造物や細長い道や壁のように、広域的に見たほうが全体像が見えやすい構造物には有効である。またセンサの種類として、可視ではなくレーダーを使えば土の中に埋もれた遺跡も発見できることがあるが、これも宇宙に限った話ではなく地上でも同様である。

実は我々も、ディジタル・シルクロード・プロジェクトにおいて、シルクロードの遺跡を衛星画像から発見するというプロジェクトを10年近く続けている。このプロジェクトが扱っている問題は、行方不明遺跡の再発見という問題である。100年ほど前にシルクロードを探検した各国の探検隊が発見した遺跡の一部が現在は行方不明になっているが、それを衛星画像による遺跡探索で再発見しようというのがプロジェクトの目的である。昔はわかっていた遺跡がなぜ行方不明になってしまうのかといえば、それは100年前の探検隊の記録が不正確だからということになるが、細かく書いていくと長くなるので、詳しい内容については以下の論文などを参考にしていただきたい。



このプロジェクトを進める過程で、実は我々も遺跡を誤認しそうになったことがある。それはGoogle Earthでシルクロードの砂漠を調べている時だった。そこにはいかにも遺跡のように見える構造物が写っており、我々もてっきりそれが遺跡だと考えたのである。ところがよくよく見てみると、構造物の特徴がどうも昔の遺跡の特徴とは合わないことがわかってきた。そして慎重に検討を重ねた結果、その人工物は近年になって放棄されたものであると判断した。このように、たとえ人里離れた砂漠の中に四角い人工物があっても、それが遺跡とは限らないのである。そして最終判断のためには「グラウンド・トゥルース(ground truth)」、つまり現地調査による確認がどうしても必要である。現地調査の重要性は多くの識者が指摘していることであるが、まさにその通りなのである。

考古学も歴史学もエビデンスを基礎とする学問である。単に四角い構造物を見つけたというだけでは、遺跡と判断するエビデンスとしては不十分である。例えば構造物の配置が既知の構造物に類似していれば、エビデンスがより強化されることになる。その他にも、周囲環境は妥当か、他の記録と照合できるかなど、多くのエビデンスを積み重ねることで仮説の信頼度を高めていく。しかし現地に行かずに調査するアームチェア考古学だけでは、判断を下すには限界があるのも確かである。そこからさらに精度を高めるには、その近辺を現地調査したことがある経験者の「空気感」がどうしても必要になってくる。やはり現場の情報量は圧倒的に多く、現場に行って初めてわかることは多いのである。そして、さらに判断を確定的にするには、現地調査による確認は不可欠となる。それなしでは、誤った結論を出してしまう危険は避けがたいのである。

次に市民科学(オープンサイエンス)の視点から。一般に広く公開されているデータを使って市民が新しい発見を行うというのは、市民科学として近年注目を集めている方法である。その視点から見た場合、確かに得られた結論は正しくなかったかもしれないが、少年は市民科学者として意欲的な良い仕事をしたと言える。市民科学の一つの目的は、市民が学問に触れ、あわよくば学問的発見につながる機会を提供することで、学問への理解を深めるという点にある。少年が追究した仮説検証という学問的方法は、大いに奨励すべきものであって否定すべきものではない。むしろ問題が生じたのはその先である。市民科学において市民から提出された仮説を、専門家が精査するというプロセスに穴があったのである。専門家は市民による科学をどのようにファシリテートすべきなのか、そこを議論していかねばならない。

最後に人文情報学デジタル・ヒューマニティーズの視点から。今回の研究に関わった専門家は画像を提供したリモートセンシング研究者などが中心で、研究は少年が中心になっておこなったとの話も出ている。いずれにしろ、そこに考古学者はあまり関与していないようである。そのことに対する批判はすでに多いが、こうなったのは必ずしも意図した通りではないのかもしれない。というのも、たとえ考古学者に協力を求めたとしても、素朴な星座仮説では相手にしてもらえない可能性が高いからである。

ではそのような場合、どのように研究を進めればよいのだろうか。専門家の協力が得られなければあきらめるべき、というのでは独創的な発見をつぶしてしまう危険がある。また「専門分野外の人が適当なことを言うな」というありがちな否定だけでは、専門分野の閉鎖性とタコツボ化というまた別の問題を深刻化させることになる。私が好きな傑作本「独創はひらめかない―「素人発想、玄人実行」の法則」にもあるように、先入観にとらわれない素人的な発想がブレークスルーに結びつく例は多々ある。ただし素人の発想だけではだめで、玄人による実行が伴わなければならないというのがこの本の重要な主張である。マヤ遺跡プロジェクトの問題もここにあったのではないか。星座仮説という「素人」の発想までは良かったとしても、マヤ遺跡の「玄人」による検証がなされないまま、ストーリーが広がってしまったのである。

とはいえ、衛星画像という情報系の知識と遺跡という人文系の知識を組み合わせる人文情報学的な研究分野においては、研究の検証には複数の専門性が要求されることになるため、そのすべてを把握した玄人は存在しないこともある。かといって、一部の専門性だけで判断すると誤った結論を導き出す危険性がある。このように複数の専門性が関わる研究テーマにおいて、誤った結論から免れる唯一の方法は、複数の専門分野の研究者が密接に議論すべきということになろう。そう言うのは簡単だが、実行するのは簡単ではない。ある分野の価値観から外れる独自の仮説であればあるほど、協力を得ることは難しいからである。玄人の協力を得ることと素人の仮説を立てることは、両方が成立しづらいという意味では鶏と卵の関係に似ており、それに対する万能な解決策はないかもしれない。まあコラボできるようにみんな頑張りましょうという月並みな結論しか思いつかない。

以上をまとめると、衛星画像を使って遺跡を探索するという宇宙考古学の視点では、人工物を発見するところまではよかったが、データの意味を解釈する段階において、専門知識の不足によるありがちな間違いが生じた可能性がある。とはいえ、より重大な問題は、市民が提出した仮説を専門家が検証するという市民科学的な視点、および複数の専門性を越えて検証するという人文情報学的な視点にあったと言えるだろう。ただ付け加えるならば、このような問題構造そのものは珍しいものではなく、自分自身も同じようなミスを犯していないかヒヤヒヤする面は多々ある。分野を越境してよく知らない場所に踏み込むことにはリスクがつきまとう。何かミスを犯してしまったら、それを受け入れて改善するという謙虚さが重要なのかもしれない。

最後に、星座というロマンティックな仮説を提示した少年にとっては、いきなり厳しすぎる「オープン査読」の洗礼を受けてしまったことが気の毒であるが、これにめげずに今後も研究を進めて欲しいと願っている。市民科学者から専門科学者への成長を、みんなが応援してくれることだろう。
22:36 | 投票する | 投票数(8) | コメント(0)
2016/03/01

観測精神のアーカイブ~「100年天気図データベース」と気象観測の歴史

Tweet ThisSend to Facebook | by kitamoto
1883年3月1日、「天気図」はこの日から毎日発行されるようになりました。今日2016年3月1日は、それから133周年となる記念日です。そこで以下では、日本の天気図の133年間の歴史をたどることができるウェブサイト「100年天気図データベース」を紹介します。

まずは日本最初の天気図を眺めてみましょう。ウェブサイトの日付検索に1883年3月1日と入力すると、1883年3月1日の天気図が表示されます。



なんと日本全体で、等圧線は2本しか描かれてませんね。。しかし2本とはいえ、これらは重要な情報を伝えています。西は気圧が低く東は気圧が高いという情報です。天気はおおむね西から東に変わるので、西の低気圧が東に進んでくることを考えれば、明日は天気が悪くなりそうだと予想することができます。今から比べれば初歩的なレベルの天気予報とはいえ、自分の周囲の空だけを眺めて予想する観天望気という昔からの天気予報と比べれば、グローバルな気象観測データに基づく科学的な天気予報に一歩近づいたと言えるでしょう。

では、実際はどうなったのでしょうか。上記の天気図のページから、翌日の1883年3月2日の天気図に移動してみましょう。



この日も等圧線はまばらですが、南の気圧が低く北の気圧が高いという気圧配置から、実際には低気圧は太平洋側を進んだという情報を読み取ることができます。太平洋側は南風ではなく北風が吹く天気となり、冷たい雨や雪の一日になったのかもしれません。1883年の天気図はデータ量としては確かに少ないのですが、地図上に等圧線を引いて全体像を把握することにより、初歩的なレベルの天気予報ができるようになりました。これは科学的な天気予報に向けた大きな一歩と言えるでしょう。

しかし天気図の製作は、実は気象観測技術の進歩だけでは実現できません。というのも、天気図とは各地の気象観測データを短時間で集約して解析したものですから、通信技術も発達しなければ天気図は完成しないのです。昔からある狼煙(のろし)による通信では情報量が少なすぎるし、馬による通信では遅すぎて遠方の観測データを当日中に集めることはできません。つまり、遠方からのデータを迅速に集約できる電信技術がなければ、天気図を完成させることはできないのです。日本全国に電信が広まったのは1870年代から1880年代にかけて。まさに当時の最先端の通信技術を活用し、データ統合と可視化という課題に挑戦したのが天気図の製作という事業だったのです。

そして天気図の製作を通じて、日本の気象学と気象観測、天気予報は進歩していきました。133年間に描かれた天気図(日本・アジア域地上天気図)の総数はなんと10万枚を越え、気象学の歴史を記録した科学的な歴史資料としても貴重な存在であると言えます。

ここで、天気図に関連する歴史を簡単に振り返ってみましょう。等圧線が2本しかない時代にはまばらだった気象観測データも、各地に電信が普及して観測点も増加してきました。そして日本はアジアに進出して観測範囲もさらに広がり、軍事情報としての気象情報の重要性も高まりました。第二次世界大戦に敗戦する頃には日本の気象観測網は大きな打撃を受けていましたが、戦後の復興とともに気象観測にも新たな時代が訪れます。天気図データベースには1958年から高層天気図が加わります。そして気象庁は1959年には当時最新鋭のコンピュータを導入、1965年には富士山レーダー、1974年にはアメダス、1977年には気象衛星ひまわりなど、新しい機器が続々と気象観測を開始し、天気図はより精緻なものになっていきます。しかし同時に、気象観測データを統合し可視化するという役割は天気図から数値予報モデルへと徐々に移行していき、いまや天気図は中心的な役割を果たすものではなくなりました。専門家が点と点をつないて等圧線を描いていた時代から、スーパーコンピュータによるシミュレーション結果を人間のためにわかりやすく描き直すという時代へ。133年間の天気図の推移とその役割の変化をたどることは、日本の気象学が発展してきた歴史をたどることにもなるのです。

しかしこの天気図データベースの価値は、こうした成果の歴史にとどまらないと私は考えています。天気図とは、一見すると実用のために製作された無味乾燥な図面のように思えるかもしれません。ところがこれをじっくり眺めていると、かつて天気図を描いた気象人たちの強い思いが伝わってくるような気がするのです。強い思いとは何でしょうか。それが「観測精神」です。

この言葉は、日本の気象学の開拓者の一人であり中央気象台長(現在の気象庁長官に相当)としても活躍した岡田武松が作った言葉とされています(追記)。これはどんな意味なのか、柳田邦男著「空白の天気図」から抜粋してみましょう(100年天気図データベースとは?)。
観測精神とは、あくまで科学者の精神である。自然現象は二度と繰り返されない。観測とは自然現象を正確に記録することである。同じことが二度と起こらない自然現象を欠測してはいけない。それではデータの価値が激減するからである。まして記録をごまかしたり、好い加減な記録をとったりすることは、科学者として失格である。
当時の気象観測に従事した人々は、みなこの岡田の教えを指針として、台風による暴風が吹き荒れるような困難な日であっても、欠測とならないよう気象観測を続けてきました。このような膨大な努力を100年以上も続けてきた成果の結晶が、この天気図データベースなのです。つまり天気図データベースは、気象観測という科学データのアーカイブであるだけでなく、気象人の「観測精神のアーカイブ」でもあり、そこに私はかけがえのない価値を感じるのです。

観測精神は日本の歴史が大きく動いた日にも発揮されました。過去の著名な天気図では歴史的な日の天気図をいくつか紹介していますが、特に重要度が高い第二次世界大戦に関連する日を取り上げてみましょう。まず開戦の日である1941年12月8日の天気図には「極秘」スタンプが押されています。この日から天気図は軍事機密になったからです。



一方、終戦の日である1945年8月15日にも天気図は製作されました。しかしよく見てみると、日本国内の観測点が異常に少ないことに気づきます。終戦の玉音放送を聞いた直後の気象人たちは、観測精神にしたがっていつも通りの気象観測を行い、それを伝えることができたのでしょうか。天気図の空白には、人間社会に起こった大きな変化の痕跡も残されているのです。



時代を越えて受け継がれてきた観測精神は、数々の伝説も生み出してきました。先に取り上げた「空白の天気図」は、広島への原爆投下直後から枕崎台風の襲来までの気象観測と人々の生き様を中心としたストーリーです。また新田次郎著「芙蓉の人」は、明治28年に富士山頂に気象観測所を設け、命がけで気象観測を続けた野中夫妻の感動的な物語を伝えています。富士山頂については、同じく新田次郎による「富士山頂」も私が好きな本です。伊勢湾台風という未曽有の災害を二度と起こさないために、富士山頂に気象レーダーを設置して「台風の砦」にしようという壮大なアイデア。それは高度経済成長期の日本を象徴する一大プロジェクトとなり、その後もNHK「プロジェクトX」の第1回放送で取り上げられるなど、気象観測という分野を越える伝説となりました。

しかし時代は変わりました。現代は気象観測の自動化が進み、宇宙空間の気象衛星からも刻々とデータが送られてくる時代です。今でも飛行機による台風観測のように危険性の高い気象観測は残ってはいますが、決死の覚悟で観測を続けてきた古典的な観測精神の時代と比べれば状況は様変わりしています。とはいえ、だから「観測精神」という言葉も価値を失ったのかといえば、そんなことはないように思います。「データの欠測は価値を激減させる」「きちんと観察せよ」といったメッセージは、現代的に解釈すればビッグデータ時代にも通じる指針となります。観測精神とは、データをきちんと分析して社会に役立てることへの使命感や価値観を表現する言葉であり、それは今も基本的に変わりないと考えるからです。

それは、固い言葉で言えば職業倫理、もう少し日常的な言葉で言えばプロ意識や生き方のようなものかもしれません。でも、それを「精神」と言い替えてみると、なんだか背筋が伸びてシャキッとしてこないでしょうか。「精神」とは、当時使われるようになっていた「時代精神」などに影響を受けたネーミングでしょうが、倫理などの言葉よりも主体的な姿勢を感じさせるいい言葉だと私は思っています。

私にも、こうしたデータベースを構築する際に心がけている「データベース精神」のようなものがあります。皆さんの仕事を支える「精神」もきっとあることでしょう。もし今はまだないとしても、何が本当に大事なことなのか、これを機会に一度考えてみてはいかがでしょうか。

【謝辞】本データベースの構築にあたっては、科学研究費補助金・研究成果公開促進費(データベース):平成25年度(258062)による助成を受けました。天気図の画像は、気象庁が気象業務支援センター経由で提供している画像を利用しています。一部の作業については、NPO法人 気象キャスターネットワークの協力を得ました。

【追記(2016年4月23日)】 本文では「観測精神」という言葉を使いましたが、もともとの言葉は「測候精神」です。この2つの言葉の関係について、古川武彦著「気象庁物語」(中公新書)に参考になる記述がありました。古川氏によると、岡田武松の「測候精神」とは、観測における心得に加えて日常生活における気象人のあるべき姿にまで踏み込んだ一種の精神訓だそうで、岡田の測候精神のうちの観測面については「観測精神」と呼ぶべきであろうと述べています。つまり、測候精神は観測精神よりも幅広い範囲を指す言葉であり、そのうち観測に関する心得については、本文のように「観測精神」と呼んでも差し支えないと考えられます。
09:00 | 投票する | 投票数(1) | コメント(0)
2016/01/06

最後の更新?『東洋文庫所蔵』貴重書デジタルアーカイブと著作権問題

Tweet ThisSend to Facebook | by kitamoto
このたび『東洋文庫所蔵』貴重書デジタルアーカイブの更新を行いました。2013年2月以来、約3年ぶりの更新となります。



今回の更新で、デジタルアーカイブの規模は7万ページを越えました。ページ数という規模だけを見るなら、これは取り立てて大きなデジタルアーカイブとは言えません。むしろ規模ではなく学術的な価値を優先させ、価値の高い本だけを選書して丁寧に撮影した「厳選型」である点に最大の特徴があります。最初のバージョンを公開したのは2004年でしたが、それ以来約12年の間にページ数も約12倍に増えました。以下のページにこれまでの経緯をまとめていますので、どうぞご覧下さい。さて、このタイミングで新しい本を公開した理由には、実は著作権問題がからんでいます。実は新年とは、著作権保護期間が満了する時期でもあるのです。例えば青空文庫でも、毎年1月1日に、その日からパブリック・ドメインとなって青空文庫に加わった著者のリストを公表します。それと同様に、今回公開した書籍の著者の中には、2016年1月1日をもって著作権保護期間を満了した著者の方がいます。そうした書籍をできるだけ早くお届けしようと処理を進めた結果、新年早々が公開のタイミングとなったわけです。

とはいえ、このようなデジタル化を来年以降も続けられるかといえば、雲行きがかなり怪しい状況となってきました。それは、著作権保護期間の延長が、いよいよ現実味を帯びてきたことが理由です。昨年の2015年には、TPPが大筋合意し、著作権保護期間を70年に延長する流れができました。我々のデジタルアーカイブは、この延長の影響をモロに受けるのです。

このデジタルアーカイブが対象とする著者は、ちょうど著作権保護期間が満了するかしないかの境目となる時代を生きていました。そこで我々は学術的に重要な書籍を選び、著者の著作権保護期間が満了するのを待って逐次的にデジタル化を進めてきました。それがほぼ終了したいま、これからデジタル化する書籍は、これから著作権保護期間が満了する著者の書籍が対象となります。

ところが著作権保護期間が70年に延びると、今後20年の間は新たに著作権保護期間が満了する著者が出現しません。これは、私の研究者人生の間には、新規追加はもうできないことを意味します。つまり今回の更新が、「最後の更新」となる可能性も十分にあるわけです。今後20年間凍結状態が続くデジタルアーカイブは、20年後にどうなっているのでしょうか。私にも全く予想ができません。

一方、ただ20年間待つだけというのも能がないとは言えます。万が一70年に延長となれば、もはや保護期間の満了を待つという戦は無効になるわけですから、代替案としての「きちんと許諾を得て公開する」方法を、いよいよ本気で考えるべき時代が到来するとも言えます。これはなかなかしんどい道です。誰と交渉してどんな許諾を得なければならないのか、数十年もたてば不明なことがほとんど。とはいえ、その困難な道を切り開いていかねばならないのも確かです。

ごく限られた作品の著作権を守るために、他の多数の作品が巻き添えを食らうという構図は、全体として見れば文化の振興になっているのでしょうか?大いに疑問が残る点は多々ありますが、それはそれとして、現実的な解を見出していくことも同時に重要さを増してきます。今後はそうした方向でもチャレンジしてみたいと考えています。

関連記事
19:30 | 投票する | 投票数(9) | コメント(0) | ニュース
2013/12/26

イラン・バム地震10周年とアーカイブプロジェクトの成果

Tweet ThisSend to Facebook | by kitamoto
イラン・バムで死者4万人とも言われる大地震が発生したのが2003年12月26日(Wikipedia:バム)。そして今日ちょうど10周年を迎えました。私たちは、地震発生直後からアーカイブ活動イラン・バムの城塞を開始し、あれから10年が経過してアーカイブはようやく部分的な完成を迎えつつあるところです。

その成果の一つとして、バム遺跡を3次元CGモデルで復元したウォークスルービデオを、YouTubeのDigital Silk Roadのチャンネルにいくつかアップロードしました。地震で崩壊する前の雄大な遺跡の姿を想像しながらお楽しみください。これ以外のビデオも3次元CG復元のウォークスルー映像で提供しています。



From Barrack to entrance ramp of Governor's House | Citadel of Bam, Iran  - YouTube

Governor's House and Watch Tower | Citadel of Bam, Iran  - YouTube

From fifth Defensive Wall to Chahar Fasl (Four Season) | Citadel of Bam, Iran  - YouTube

アーカイブ制作は基本的に地道な作業が必要です。地震で崩壊する前の建物を復元するためには、建物の大まかな寸法だけでなく、窓やファサードの細かい装飾などもいい加減には扱えず、どうしても検討と作業に時間がかかります。こういった3次元モデルの構築は、遺跡が現存するならレーザー計測を用いるのが定番なのですが、遺跡が災害で失われた後となってはそうもいかないのです。また、アーカイブは(特に情報学の?)研究としての新規性を訴えづらい面があり、研究プロジェクトの予算獲得にも難しさがあります。とはいえ、こうした問題を周囲の助けもあって乗り越えつつ、3次元モデルの構築を粘り強く進めてきた結果、バム遺跡の主要部分についてはこの秋にようやく3次元モデルを完成させることができました。

これまでのプロジェクトの経過については、今から3年前の時点の情報を2010年12月26日の記事イラン・バム地震7周年で紹介しました。またイラン・バムの城塞:ニュースでは、地震の5日後(2003年の大晦日!)にウェブサイトを立ち上げて以来のいくつかの出来事を記録しています。ちなみに文献としてはPost-Disaster Reconstruction of Cultural Heritage: Citadel of Bam, Iranなどがあります。

10年前、バム地震のニュースを聞いた直後のことを今でも覚えています。かつてバムで働いていたイラン人の大学院生と最初に話したとき、私はその場でアーカイブ構築を提案しました。そこには過去の記憶がありました。まず、1995年の阪神淡路大震災(阪神・淡路大震災から18年を機に、震災年表について考える)の記憶です。地震で何が起こっているかは、誰かが発信し記録していかねばならないことを痛感していました。そしてさらにその奥には1993年の北海道南西沖地震(北海道南西沖地震から18年を迎えた奥尻島)の記憶がありました。町が丸ごと失われた後の喪失感を埋めるためにも、何らかのアーカイブが必要ではないかと考えました。

それから延々とアーカイブ構築を進めてきた中間報告として、3年前の12月26日に書いたのが地震7周年の記事でした。そしてそれから数か月後に、あの東日本大震災(東日本大震災から1年半後~時の流れと記憶の忘却)が発生。その後アーカイブを取り巻く環境は変わったのでしょうか?確かに東日本大震災後には多くのアーカイブプロジェクトが立ち上がりました。記憶を後世に伝えていかねばならない、多くの人がそう主張しました。その後それらのプロジェクトがうまく進んだのかと言えば、なかなか簡単ではないなというのが正直な感想です。

アーカイブの最終的な成功とは何でしょうか。バム遺跡復元プロジェクトの場合、それは遺跡の物理的な復元でした。つまり物理的な復元にも使える精度の3次元モデルを構築することを(遠い)目標にしたのです。とはいえ、バム遺跡はあまりに巨大すぎ、コストの面から物理的な復元は難しいのが実情です。さらに、イラン南東部に位置するバムはアフガニスタンにも近いため、現在は治安の面でも極度に悪化しており、物理的な復元どころではない状況となっています。こんな状況で今後の目標をどこに見出していけばよいか。これは重要な課題であり、イランの人たちともこれから議論していきたいと考えています。
18:00 | 投票する | 投票数(1) | コメント(0)
2013/01/28

データジャーナリズムで日本の電力問題を可視化する

Tweet ThisSend to Facebook | by kitamoto

1. データジャーナリズムとは


データジャーナリズムとは、データがストーリーの核となるジャーナリズムの一形態です。これまでのジャーナリズムが文字(+音声)や写真(+図)、ビデオ(+映画)を核としてストーリーを語ってきたのに加えて、これからはデータを核としてストーリーを語るという新しい形態のジャーナリズムが広まるかもしれない。それを私は、これまでの三世代に続く「第四世代のジャーナリズム」として捉えています。

なぜ「データジャーナリズム」がいま注目されているのでしょうか。それは世界を記録する多種多様巨大なデータが、本当に面白い現象を捉えるようになったためでしょう。データを活用することで、新しい視点から世界を語ることがジャーナリズムにも期待されますが、その一方でジャーナリズム側には、そうするのに必要なスキルが十分に蓄積されていないのも実情です。こうしたスキルがないメディア企業は優位性を失うのではないかということから、先進的なメディア企業はデータジャーナリズムに関する実験的試みを数年前から開始して経験を蓄積しています。日本でも2012年あたりからは、メディア企業が本腰を入れ始めてきた感があります。

データジャーナリズムについては、英語ではData Journalism Handbookという本が出ており、これで現在進行形の情報をある程度はつかめるでしょう。

2. データジャーナリズムの電力問題への適用


データジャーナリズムという言葉が登場したのはここ数年ですが、私のこれまでの研究を振り返ってみると、データジャーナリズム的なアプローチ、あるいはアルゴリズム的側面に焦点を合わせた計算論的ジャーナリズム(computational journalism)的なアプローチに基づくものが多いような感があります。そこで本記事では、データジャーナリズム的なアプローチが特に強いエレクトリカル・ジャパンを取り上げ、東日本大震災を契機に日本の最重要問題の一つに浮上した電力問題をデータで語るとどうなるか、その実践を総括してみたいと思います。



以下では説明のために、データジャーナリズムを五段階のプロセスに分けてみます。すなわち、収集、整理、可視化、ストーリー化、公表です。このようなプロセスには合意された標準的な分類はありませんが、上記の分類は特に変わったものではないと思います。また実際にはプロセスは段階的に進行するわけではなく、いくつかのプロセスを往復しながらゴールを目指すことになります。

3. データの収集


まず電力問題を語るのに欠かせない、発電所データについて考えてみましょう。日本全国には現在いくつの発電所があるのでしょうか?え、そんなの、発電所データベースをネット検索して、ダウンロードして、調べればいいのでは。そう考えるかもしれません。ところが残念ながら、ネットはまだそこまで充実してはいないのです。ネット上の発電所データベースはいずれも部分的なもので、全国の全電源をカバーする網羅的なデータベースは見つかりません。そこでやむを得ず発電所データベースを自力で完成させることに決め、ようやく3300か所の発電所を登録するまでに至りました。そのあたりの苦労話はエレクトリカル・ジャパン(発電所マップ+夜景マップ)を公開中ですに触れましたので、ここでは繰り返しません。ただしここで強調しておきたいのは、もしデータベースを誰かがすでに作ってくれているなら、それは幸運なケースだということです。もしなければ自分で作る。データジャーナリズムにおいても、地道な取材活動によってデータを集める作業を避けては通れないと思います。ジャーナリストは「足で稼ぐ」とよく言われますが、データジャーナリストも「腕で稼ぐ」あるいは「指で稼ぐ」意気込みが必要でしょう。

またデータジャーナリズムが従来のジャーナリズムと異なるのは、書いたら終わりの記事とは異なり、もしデータベースを作ったとしたら「終わりがない」ということです。私は個人的には「データベースは更新が命」だと思っています。ある時点で頑張ってデータベースを完成させても、それを更新せずに放置したら、その内容は徐々に腐って価値を失っていきます。特に発電所データベースの場合、現在は再生可能エネルギーの普及が進むという特別な変革期に突入しているため、古いデータベースでは再生可能エネルギー発電所のカバー率が大幅に低下することは避けられません。データベースの充実に限界があるとはいえ、例えばメガソーラーに関する情報をどうやって継続的に更新していくのかを考えなければなりません。

そこで重要となるのが継続的な取材活動です。私が使っているのはGoogleニュースを中心とした検索エンジンです。発電所に関する新着情報を調べ、もしあればそのソースとなる情報を探し、そこから情報を取り出してデータベースに登録します。ソースがしっかりしたプレスリリースを公表していれば情報収集は容易ですが、プレスリリースがなければ別のソースを比較しながら裏取りをします。もちろん電話取材すれば万全ですが、私はプロではないのでさすがにそこまではやらず、ネット上のリソースに取材対象を限定しています。そして発電所データベースの場合、特に問題となるのが位置情報です。プレスリリースに市町村名ぐらいは書いてあったとしても、緯度経度が書いてあることはまずなく、アクセス地図も書いていない場合が多いのが実情です。そうした発電所を地図上にマッピングするには、発電所の全景写真や周囲風景の描写などから、立地場所を絞り込んでいかねばなりません。そうした丹念な取材活動が必要になるのです。

4. データの整理


こうして手元にデータを収集できたら、次はデータのフォーマットを後の処理で利用しやすい形に変換します。デジタルデータのフォーマットには、大別すると機械可読なものと機械可読でないものがあります。そして機械可読でないデータは、基本的に人力で打ち込み整理する必要があります(OCRの精度はまだ不十分です)。最近は人力で打ち込む方法にも変革が起きており、クラウドソーシングや情報ボランティアの活用などには将来性があります。しかしここでは機械可読データの整理に話を絞り、機械可読データといっても整理は一筋縄では進まないことを書いておきたいと思います。

まず最初の題材として電力統計「見える化」で活用している電力調査統計(経済産業省資源エネルギー庁)を取り上げます(参考)。これはウェブサイトでエクセル形式(XLS形式)で提供されており、一般的にこの形式はプログラム処理しやすい「機械可読形式」だとみなされています。ところが実際にこれを機械処理させようとすると、そう簡単ではないのです。というのも、エクセル表は人間可読性を向上させるための「マス目」として使われており、機械可読性についてはほとんど考慮されていないからです。例えば同じ統計表のはずなのに、年度ごとにセル位置が違うなどのフォーマット揺れや、誤ったセル結合によるセル関係の不整合が年ごとにバラバラに発生するなど、種々の問題が見えてきます。それらの問題を自動的に解決して「真の」機械可読データに変換するのは、そう簡単な作業ではありません。

統計表のもう一つのポイントは時間軸の扱いにあります。統計の目的は2つ、すなわち現状を知ることと過去から現在までの変化を知ることにあります。いずれの目的においても、ある変数の時間変化を知ることは統計の根幹となる重要な機能です。ところが、実際の統計表は現状を知ることを優先した表現、すなわち時間変化するデータのスナップショットを表現することが目的となっているものが多いのです。これは、最新状況をさっと把握したいというプロの統計利用者の利用方法に照らせば妥当だとは思いますが、ある変数の時間変化を知るためには複数の統計表をまたいでデータを拾っていく必要が生じます。

こうしたデータの構造化を考えた場合、表層的な表構造をそのままデータ構造にするべきでしょうか。カテゴリカルなデータの場合、項目の並び順はどうしても恣意的な面が入ってしまうため、表の上で隣り合う列や行という関係性には本質的な意味が薄い場合があります。また統計表の2次元表形式はデータ集合を複数の切り口(ファセット)の掛け合わせとして集計した表現であり、そこにはもともとのレコードにあったはずの変数が合成されて出現するというなかなか複雑な構造になっています。私の個人的な経験では、こうした表層的な表構造ではなく、それぞれの変数の時間変化という深層構造を構造の基本単位とする方が、構造化への見通しがよいと感じました。こうした面倒な処理はぜひツールボックス化して、人間可読用エクセル表をうまく扱うノウハウを蓄積していければなと思います。



次の題材として、電力会社が公開する電力使用状況データを取り上げてみます。こちらは上のXLS形式よりはマシなCSV形式で、間にはさまっているコメントの処理などを除けば比較的素直に処理プログラムを作成することができます。しかし問題はフォーマットだけにとどまりません。過去データを単一のCSVファイルで提供する会社もあれば、日ごとのファイルに分割して提供する会社もあります。また1時間ごとの電力量を提供する会社もあれば、それをしない会社もあります。つまり機械可読性を議論するならば、データフォーマットの問題だけではなく、データアクセスとデータ項目の統一についても配慮する必要があるのです。こうした差異を吸収した統一的なAPIが用意されて初めてデータ利用は本当に簡単なものとなるでしょうが、そうしたAPIが整理されているようなデータはまだまだ少ないのが実情です。東日本大震災以降、複数のウェブ企業が電力使用状況APIを提供していますが、一時的な提供という位置づけのためか、細かく見ると種々の問題が残っているものもあります。やはりデータ提供元がきちんと検証したAPIを提供するのが自然であり、ウェブ企業がその展開を支援するという位置づけで継続的に連携していくことが課題だと考えます。

5. データの可視化


データは数字や文字の羅列ですので、人間が理解しやすい形に可視化する必要があります(もう一つの可能性として「可聴化」がありますが、ここでは触れません)。可視化には長い歴史があり、定番の方法も揃っています。例えば時間軸を横軸にした線グラフはある変数の時間的な変化を追いやすいため、定番ながらも有効な手法です。ただし、単に時系列グラフを描くだけなら、大げさに「データジャーナリズム」などと言いたてる必要はありません。データジャーナリズムの可能性は、伝統的な可視化手法を越えた新しい表現や、インタラクティブ性や高精細度を利用した大量データの表示を通して、データに潜んでいる事実を明らかにしたり、データを解釈するための文脈を与えたりする点にあるからです。

最初に取り上げる題材は電力統計「見える化」です。このページでは先に整理した電力調査統計やその他のデータを可視化しており、可視化にはData-Driven Documentsというライブラリを用いています。このライブラリでは様々な種類の可視化が実現できるのですが、電力統計「見える化」では、結果的にほとんどの可視化に時系列グラフを使いました。その理由は、この方法が基本的で汎用性が高く、意味も理解しやすいという点にあります。ただ単なる静的なグラフではなく、複数の表示項目をインタラクティブに切り替えることで、多くの視点からデータを眺められるようにしています。



ただし「見える化」の中では、一般電気事業者間の送受電実績(月ごと)および一日の最大電力と気温の関係のみ、時系列グラフ以外の表現を使うことにしました。前者は融通電力という数学的には「グラフ構造」に関するデータを扱っているため、グラフの一つのノードに着目すれば時系列グラフは描けるのですが、全体像を可視化するにはグラフ構造そのものを描く必要があるからです。また後者は変数の時間変化そのものより、時間軸を捨象した2変数関係の方に興味があるため、点の描画のアニメーションとしてデータを表現することにしました。また電力使用状況に影響を与える気象データとしては気温日照時間が代表的ですが、そのうち特に影響が大きい気温に関するアメダスデータを使って、電力と気象という全く由来の異なる2種類のデータを突き合わせました。その結果、電力消費が最小となるのは各社共通して気温15度から20度の間であるという性質が浮かび上がり、可視化による全体像の把握として興味深い図が得られました。

次の例として電力使用状況を取り上げます。ここでは時系列グラフに一つの工夫を加えました。それは30日間の時系列データを一枚のグラフに重ね合わせることで、現在と過去を比較するという「文脈」、すなわち今日の電力使用量が多いのか少ないのかを30日間という時間の枠の中で、見た目で比較できるようにしたのです。このように大量データの描きこみと背景化、そして大量データという文脈の付与によるデータ解釈の支援という方法は、高精細化した可視化表現で可能となるものだと言えます。

ただしデータジャーナリズムにおける可視化では、ストーリーを伝えるという当初の目的を忘れてはなりません。つまり、見かけの新奇さではなく、あくまで読み取れる情報量の多さで判断すべきということです。上記の「見える化」でも、実は他のもっと「かっこいい」可視化も試してみました。そうした例はData Driven Documents (d3.js)のギャラリーにもたくさん紹介されており、動きが面白い手法などは見かけのインパクトもなかなかです。しかしそうした可視化の有用性はデータの性質に依存する場合も多く、今回のデータでは意味を読み取ることが難しいとの判断に至りました。単に可視化して自己満足というのではなく、その可視化から何が読み取れるのかを考える。そうした観点から最適な可視化を選んでいくというセンスも、データジャーナリズムに必要なスキルなのではないかと思います。

6. データのストーリー化


これまでの三段階を行きつ戻りつしながら、最終的な可視化とストーリーを練り上げていく段階です。ここで重要となるのは、データの可視化がどれだけのストーリーを喚起するかという点でしょう。例えばフォトジャーナリズムでも、たった一枚の写真が豊かなストーリーを語ることがあります。まさに「一枚の絵には千語の価値がある(A picture is worth a thousand words)」、これが報道写真として理想的な写真でしょうし、それは単なる記録としての写真とは質において決定的に異なります。同じことがデータジャーナリズムについても言えるのではないでしょうか。一つの可視化から豊かなストーリーが湧いてくること、それがデータのストーリー化の目標と言えます。

そうした例として発電所マップをまず取り上げます。これは、日本全国の発電所の立地点と、夜間の照明を撮影した衛星画像(参考)という、全く由来が異なる2つのデータを1枚の地図の上に重ねたものです。ここで、前者を「電力供給マップ」、後者を「電力消費マップ」と位置づけると、両者の間に関係性が見えてきます。電力の供給と消費という、コインの裏表のようなデータが1枚の地図上で重なっているからです。例えば、水力発電所風力発電所は暗い僻地にあるんだなとか、火力発電所は明るい都市部に多いんだなとか。では原子力発電所は、どんな場所に分布しているのでしょうか?福島第一原発事故でも供給地と消費地の関係性の問題が問われました。原発で発電した電力は、原発事故で避難を余儀なくされた地元で消費されるのではなく、遠く関東地方に送り届けられて消費地を支えていること。そんな地域の問題にも思考が及んでいき、一枚の絵からストーリーが広がっていく感があります。

そして供給地と消費地の関係性の問題は、実は原子力発電で始まったものではなく、もっと昔の水力発電や火力発電の時代から続くものです。福島県は水力発電所の時代から東京に電気を送り届けており、猪苗代地域の水力発電所建設と東京への長距離送電は、大正時代の代表的な電源開発として知られています(参考)。また常磐炭田などから掘り出された石炭の活用が、現代の火力発電所にもつながっています。そんな歴史を考えさせるのが日本の発電所の歴史です。これは過去から現在まで、日本の発電所がどのように増えてきたかをアニメーションで示すものです。この可視化には、過去に廃止された火力発電所がないという大きな問題はあるのですが、それでも水力や火力の小規模発電所が中心だった時代から、高度経済成長の時代に入って大型発電所が各地に続々と建設され、それが原子力発電所を含むベストミックスの時代へと進んでいった歴史を感じることができるでしょう。こちらも日本の電源開発の歴史に考えが広がるような可視化になっています。



最後に統計を用いた探求について例を示しましょう。対象とするのは、以前にも取り上げた一般電気事業者間の送受電実績、すなわち電力会社間の電力融通に関するデータです。「電力融通」という言葉は、東日本大震災後の電力危機で有名になった言葉で、電力供給がピンチになった時に他社から電力を購入する「応援融通(需給相互応援融通電力)」がよく知られています。しかし電力融通にはその他に、事前の契約に基づいて電力を融通する「協力融通(広域相互協力融通電力)」があります。これは電力が余っている会社が電力を他社に売却することで儲けられるだけでなく、購入する側も高コストの発電所を動かすより安い電力が買えれば、双方にメリットがあるという制度です。特に2011年3月以前には電力危機自体が存在しませんでしたので、その時期の電力融通はこうしたタイプのものだったと言ってよいでしょう。

さて上のグラフのスライダーを動かして、時間をさかのぼってみましょう。2011年3月、大規模電源脱落で危機を迎えた東北、東京の各電力会社には、全国各地から電力融通が実施されています。2011年3月から2011年5月にかけて、通常は融通が少ない50Hzと60Hzの境界を越えて、西日本から東日本に向けて大規模な電力融通が続いており、あの時がいかに例外的な期間であったかと当時の混乱を振り返ってしまいます。ところが面白いのは、2011年3月よりもさらにさかのぼると、実は電力融通が大幅に拡大するのです。特に東京と東北の間の電力融通がずば抜けて大きい。あれ、話が違いますね。電力危機で融通が増えたんじゃなかったの、と。

先に触れたように、2011年3月以前は電力危機が存在しませんでしたので、この時期にそんな大規模な応援融通がされることは考えにくい。ですのでこれは日常的な電力の融通、すなわち発電コストの最適化のための協力融通だと考えるのが妥当でしょう。東京と東北の間では双方向に送受電が大きいので、その差分を取って相殺してみると、一貫して受電が多いのは東京であることがわかります。つまり東北から東京に向けて、継続的に電力が流入していたことになります。これはいったい何でしょうか?



その原因を探るために、他のデータとマッシュアップをしてみましょう。重ねるデータは、同じ電力調査統計にある発電設備利用率です。例えば原子力発電設備利用率と重ねてみます。そしてこのグラフを東北に切り替えてみると、面白いことに気づきます。東京への送電量と、東北の原子力発電設備利用率が、かなりよく対応しているのです。これは単なる偶然とは思えません。というのも、原子力発電設備利用率は定期検査や事故調査などの内部要因で主に変動するものですし、運転中はベース電源として一定の設備使用率をキープするものでもありますので、少なくとも融通という外部要因に応じて変動する性質の数字ではないからです。となると因果関係は逆で、東北電力の原子力発電所(女川原発東通原発)の設備利用率が送電量に影響を与えている、という仮説が浮かんできます。

では他社のデータはどうなっているでしょうか?実は似たようなパターンを他社にも見出すことができます。それが、関西と中部に融通する北陸と、関西に融通する四国です。実際にどの時間帯の電力を融通しているかまではデータがありません。しかしもし夜間であれば、ベース電源である北陸電力志賀原発四国電力伊方原発が発電する電力のうち、管内では使い切れない電力は余剰電力となって、それを他社に融通(売電)することが重要な事業になっているのではないでしょうか。こうしたことは企業情報などを分析することでも推測できそうですが、電力データからも改めてそうした構造が浮かび上がってくる点が興味深いです。また、各社の原発が止まって全国的にも余剰電力が縮小した現在、他社からの継続的な融通に多くを期待できる状態ではなくなり、これが2012年夏の関西における電力危機の遠因になったのかもしれない、といった感じでストーリーが膨らんでいきます。

このように複数のデータをマッシュアップしてストーリーを浮かび上がらせることが、データジャーナリズムの重要な一ステップとなるでしょう。それをストーリーとして洗練させるには、もっと事実の確認や他のデータと合わせたより深い追究が必要になり、そこがデータジャーナリストとしての腕の見せ所になるでしょう。

7. 公表


こうして得られたストーリーを外部に公表するのが最後の段階です。伝統的な記事のようにテキストに可視物を挿入するスタイル、あるいは写真中心記事のように可視物にキャプションテキストを挿入するスタイル。ただしデータジャーナリズムとしては、より多様なチャンネル、例えばツイッター等のソーシャルメディアを活用したリアルタイム公表へと展開することも重要な課題でしょう。エレクトリカル・ジャパンでも@electricaljapanにおいて、電力使用率が95%を超えるとリアルタイムでツイートを生成して公表するという方法で、データをトリガーとするニュース速報を運用しています。ただしこんな単純な仕組みだけではなく、データ処理に基づき自動生成したマイクロ記事に単純な速報は任せるような技術も、今後は進んでいくと考えています。

またデータジャーナリズムでは、テキストにおいてもできるだけ定量的な表現を入れていくことが望ましいと考えています。定量的だから客観的だとは必ずしも言えませんが、少なくともデータを根拠とした「あいまいな形容詞を排した」「主観的な印象だけを根拠としない」テキストを書くようにする。そしてデータジャーナリズムが、データを根拠とする社会におけるインフラストラクチャとして機能するならば、きちんとした根拠を広めていくという重要な役割を担っていく必要があるのです。

8. オープンデータの重要性


最後にデータジャーナリズムを支える重要な側面であるオープンデータの話題に触れます。データジャーナリズムは、データを取材してそれを分析して公表することで成り立つ分野です。したがって公表できないデータ、あるいは事実上公表が困難な厳しい利用制限があるデータは大きな障害となります。従来からあったように、特定顧客のための秘密のデータ分析という枠組みを越えて、広く社会の意思決定にデータを活用していくには、データのオープン性が不可欠なのです。これは必ずしもデータは無料であるべきということではありません。それよりも、データを加工する権利、そしてそうしたデータを公表する権利が保証されることが重要だと考えます。

最近はデータジャーナリズムと歩みを揃える形で、オープンデータという考え方、そしてデータをオープンにする主体としての政府に着目したオープンガバメントという考え方にも注目が高まっています。これらはいずれも、データを根拠とする社会の実現に向けて、同時進行する動きとして捉えられるでしょう。そうした動きが日本においてどのような展開を見せるのか、今が重要な時期になっています。東日本大震災でデータ共有の重要性を再認識したいま、そして日本に先んじて各国でデータのオープン化が進展するいま、日本でもようやくオープンデータへの動きが加速しつつあります。しかしその具体的な制度設計はこれからが勝負。それが社会にとって有用な形で将来にわたって継続する制度になるかは、ここ2-3年が勝負になりそうな感じです。

どの分野も同じで、データに関してもやはり既得権益のようなものはあります。またデータを提供する側のメリットが小さいのも大きな問題ですし、ビジネス的にはデータの囲い込み(クローズデータ)の方がむしろトレンドかもしれません。オープンデータはどちらかというと理念先行で、現状分析がやや弱いという面があります。しかし社会に共有してこそ価値を生むデータは政府系データなどでも数多くあるわけですから、まずは理念に基づきデータのオープン利用を促進してみるというのが第一歩でしょう。そこから新しいデータのエコシステムが成長していけば、その中でデータジャーナリズムも育まれていくのではないでしょうか。
08:00 | 投票する | 投票数(11) | コメント(0)
2013/01/17

阪神・淡路大震災から18年を機に、震災年表について考える

Tweet ThisSend to Facebook | by kitamoto

1995年1月17日の阪神・淡路大震災から今日で18年。震災当日から今に至る時の流れをたどって、震災の記憶を後世に伝えるためには、どんな形で情報をまとめていけばいいだろうか。この記事で考えてみたいのは、そこで重要な役割を果たすのは年表だ、というようなお話である。


2011年6月初旬。東日本大震災後に必死に作っていた東日本大震災アーカイブに関する作業も一段落したタイミングで、たまたま大阪に出張する機会ができた。そこで、出張の仕事の合間に、阪神・淡路大震災に関するミュージアム「人と防災未来センター」を訪問してみようと思い立った。実はここには既に2-3回は来たことがあったのだが、今回は東日本大震災を経て物の見方が変わってしまった後である。そのような目で見れば、何か新しい発見があるかもしれないと思った。



私が考えていたのは、もし東日本大震災に関して同様のミュージアムを作ることがあれば、私は情報学研究者としてどんな貢献ができるだろうか、という問題だった。とはいえ、神戸のミュージアムの目玉は、当時の実写映像や再現映像、被災者へのインタビュー、被災地の生活用品などである。これらは確かに重要な資料ではあるが、そこに情報学研究者が貢献できる部分は、残念ながらあまりなさそうな感じだった。何かヒントはないだろうか。そう考えながら、館内を歩き回った。


ふと目についたのが、展示室の片隅の壁にかかっていた、阪神・淡路大震災の年表だった。そこには震災当日からの重要な出来事が日付とともに横に並んでおり、たしか10年分の年表は横幅数メートルに延びる大きなものだった。それを見て、ふと考えたのである。もし同じような年表を東日本大震災について作るなら、それは一体どんな年表になるだろうか。いや、そもそも、同じような形式でそれを作ることさえ可能なのだろうか、と。


阪神・淡路大震災は比較的狭い地域で発生した震災であり、震災に関して記録すべき出来事も、兵庫県周辺地域で発生したものが中心である。しかし、そのような限られた地域の震災年表であっても、それは数メートルの巨大な年表となった。一方、東日本大震災は、東北から関東にわたる地域を中心として、その影響が日本の広い地域に及んだ巨大災害である。それぞれの地域ごとに、それぞれ重要な出来事を記録した年表を作るなら、それこそ数十メートル×数十メートルという巨大な壁が必要になってしまうかもしれない。そして、その巨大な壁に細かく書き込まれた年表の詳細を見るために、クレーンに乗って上下に動き回るような仕組みを作ることになるかもしれない。そんな大掛かりな仕組みは、それはそれで面白いかもしれないが、全体像を把握するのは難しいだろうから、それが年表としての役割を果たしているのかどうか微妙な感じである。


さらに問題となるのが期間である。阪神・淡路大震災もそうだが、多くの災害では10年を区切りとする。しかし特に福島県においては、東日本大震災の年表は前例のない長さに及ぶ可能性がある。福島県の震災年表には、いつの日か「浜通りの全地域に住民が帰還した」という出来事が書き込まれ、そこで震災年表は終わりを迎えるのかもしれない。しかしそれがいつの日になるのか、誰にも確かなことはわからない。年表には今のところ区切りも見えないのである。


そんな空間的にも時間的にも超巨大な年表は、従来のように単一の時間の流れを切り取ったパネルとしてではなく、ズームインやズームアウト、リクエストに応じた地域選択やテーマ選択が容易な、電子的な年表として実現するべきではないだろうか。神戸でそんなことを考えた後、東日本大震災の年表をどう実現するかという課題は、私にとっては長期的にじっくり考えるテーマの一つになった。


さて、今後の参考のために、阪神・淡路大震災についてどんな年表が存在するのか、いくつか例を見てみよう。

最初の2つの年表は伝統的なスタイルであるが、最後の年表は表現がクリエイティブだし、対象も従来は扱われていないテーマに特化している。年表は別に政治・行政の動きを追うものである必要はない。震災を多角的に捉えるためには色々なテーマに関する年表が必要だし、究極的には自分にとって大事な年表を作っていくことが、震災の振り返りを助けるのに重要な役割を果たすのではないだろうか。私自身に関しても、福島第一原発事故タイムラインを作りながら様々な出来事や観測データをタイムラインに統合したことが、全体像の理解を大いに助けたという経験がある。そんな全体像の理解を助けるような年表はどんなものか。私は一つのシステムを試作してみた。


まず基礎データとして整備したのが東日本大震災ニュース分析である(参考:「東日本大震災ニュース分析」を公開しました)。これは、震災関連ニュースを分析して重要な単語を取り出す機能を備えているが、現在のところはまだ出来事を取り出してその重要度を評価することはできない。もしそれが可能となれば、ニュースから抽出された出来事を地域ごと、テーマごとに組み合わせて並べ、自分が見たい年表を自動的に作成するための基礎データとして使える可能性がある。


続いてこの基礎データを新しい形の年表として見せるのが311メモリーズである(参考:東日本大震災から1年半後~時の流れと記憶の忘却)。日々新しい出来事が加わって延びつつある時間の流れをスクリーンに収めるため、10個の単語に一日の出来事を凝縮し、それを自動的にスクロールしながら見せるインタフェースを提案した。幸いにもこのインタフェースは好評で、今年度の文化庁メディア芸術祭にも入賞することが決まった(参考:北本朝展 准教授らの「東日本大震災メモリーズ 311MEMORIES」が、第16回文化庁メディア芸術祭アート部門審査委員会推薦作品に選ばれました)。


そしてこれがきっかけとなって、毎日新聞にもインタビューをしていただいた(参考:ひと:北本朝展さん 「311メモリーズ」ネット上に公開)。この記事には以下の記述がある。


コンセプトは「静かに動く年表」。神戸で壁一面を埋めつくした阪神大震災の年表を目にし、より大きな被害をもたらした震災の年表のあり方に思いをめぐらしている。


この記事で触れている年表というのが、実は神戸で見た震災年表のことである。そして、そこから出発した着想が「静かに動く年表」というコンセプトに至って、311メモリーズという作品につながった。インタビューではそんなお話をした。


前例のない巨大災害と、その影響を今も記録しつつあるビッグデータ。そこから紡ぎ出す年表のデザインには、多くのやり方が見出せると思う。それぞれの人にとって重要な出来事をつなげた年表が、一つのストーリーにつながって震災後の歴史を語り始めたとき、それはむき出しの事実の集積よりも記憶として残りやすいものになるのではないだろうか。そのような年表、そしてストーリーを、どうやって生み出して社会で共有していくか、それは情報学研究者にとっての一つのチャレンジではないかと考えている。
22:45 | 投票する | 投票数(2) | コメント(0)
2012/09/18

東日本大震災から1年半後~時の流れと記憶の忘却

Tweet ThisSend to Facebook | by kitamoto
東日本大震災から1年半後の9月11日、以下の2つのサイトを公開しました。
以下では、この2つのサイトを紹介したいと思います。

1. 311メモリーズ(東日本大震災メモリーズ)



2011年3月11日以降のマスメディアニュース記事を対象に、日ごとの重要キーワードを10個自動的に選び出し、それを時系列的に表示するサイトです。このデータの元ネタは東日本大震災ニュース分析・日々の重要キーワードですが、見せ方が異なるので全く違うデータのような印象を受けます。

このサイトの一つのコンセプトは「静かに動く年表」です。利用者は、通常のウェブサイトのように自らの意思で情報を探索することも可能ですが、積極的に情報を探索しないモードに入ると年表が勝手に動き出して、画面上のキーワードを勝手に選び、キーワードに関連する記事のタイトルを続々と表示していきます。年表という情報構造の上でのナビゲーションと、表示されるキーワードとの偶然の出会いというセレンディピティを活用し、情報の探索をシステムにお任せできる「委ねられるメディア」を作り出すというのが、サイトのもう一つのコンセプトです。

なぜこのようにしたのでしょうか?自らがクリックを繰り返して情報を探索する能動的なモードでは、どうしても目前の選択肢に意識が向いてしまうため、その情報が想起させる自らの記憶をゆっくりと振り返りづらくなります。一方でシステムに情報の探索を委ねる受動的なモードでは、画面上に次々と出現する情報を見つめることに集中できるため、そこから震災の記憶を振り返るという余裕も生まれます。私自身もこのサイトをぼんやりと眺めていると、震災以後に発生したいろいろな出来事とその影響について、思いを巡らせたい感覚が自然に生じてきます。そのような感覚が生じる原因の一つは、受動的なインタフェースにあるのではないかと私は考えています。

そしてここに音楽をつけることで、画面上での時の流れをより強く意識できるようになりました(作曲者の松井さんのブログ)。またデザインを黒背景の白文字としたことで、石碑に刻印された文字という雰囲気も生じました。今回の震災では、津波への警告を後世に伝えて集落を守った石碑が話題になりましたが(参考:東日本大震災被災地の半年後を訪ねる)、このサイトも震災の記憶を刻み込むメディアとしての役割を果たせるかもしれません。

震災の記憶は、たまに思い出さないければ、どんどん忘却が進んでいきます。あれほど衝撃的だった震災の記憶ですが、今はみなさんの中にどのくらい残っているでしょうか?あの時の生のデータに触れることによって震災の記憶をよみがえらせ、改めて震災を考えるきっかけになればと考えています。


2. 東日本大震災ニュース分析・タイムマップ



2011年3月11日以降のマスメディアニュース記事を対象に、どこの地名がどの時期により多く報じられたかを計算し、それを可視化した動画です。このデータの元ネタは東日本大震災ニュース分析・地名マップですが、見せ方が異なるので全く違うデータのような印象を受けます。

地名マップは、震災以後の時間を圧縮したフラットな情報表示となっているため、情報の広がりは見えますが時の流れは見えません。そこで、ある地名について報じた記事数から毎時間の「指数」を計算し、それを丸の大きさと色に変換して可視化することで、時間の流れと地名の出現の関係を把握できる「動く地図(タイムマップ)」を作りました。

この動画における「時の流れ」は、ニュース記事の影響度が時間とともに減衰する「忘却モデル」に基づいています。今回使っている忘却モデルは最も単純かつ短期的な影響のみを考慮したモデルですが、忘却に関する研究成果を用いてもっと精緻化することも可能です。そうしたモデルを使えば、震災の記憶を長期的に残していくための方法が見えてくるかもしれません。

以上のように、震災1年半を迎えて公開したサイトは、いずれも時の流れと記憶の忘却に焦点を合わせたものになりました。これはたまたまという面もありますが、やはり1年半という時期は、時の流れをどのように捉え、記憶の忘却に対してどのような態度を取るべきか、改めて考えるべき時期なのかもしれないと思います。
08:00 | 投票する | 投票数(1) | コメント(0)
2012/03/18

「東日本大震災ニュース分析」を公開しました

Tweet ThisSend to Facebook | by kitamoto
東日本大震災から1年が過ぎました。震災1周年に向けて、私は2つのプロジェクトに取り組みました。一つは以前に公開したエレクトリカル・ジャパンのリニューアルですが、もう一つが1周年プロジェクトとして重点的に取り組んだもの、すなわち東日本大震災ニュース分析(3月12日公開)です。



このサイトは、東日本大震災直後からヤフーニュース(Yahoo! Japan News)で配信された震災関連記事20万件以上を整理し、震災直後から復興までの過程を振り返ることができるようにしたものです。残念ながら記事の本文は閲覧できませんが、タイトルを並べたタイムラインを眺めるだけでも、震災直後の緊迫した状況から、その中でも印象に残ったできごと、そして震災後に発生した諸問題の経過など、様々な側面から時間の流れを振り返ることができます。



またGeoNLPプロジェクトの成果を活用して、震災関連記事に登場する地名の分析と地名マップの構築なども行っています。これにより、市町村や小学校単位で記事のタイムラインを作ることも可能です。そして各地名の記事数を都道府県ごとに集約すると、日々の重要地名のように都道府県ごとの日々の記事数の推移を調べることもできます。その結果によると、一位は「福島」のことが多く、ときどき「宮城」が一位に浮上しています。やはりこの2県の記事が多いことが一目でわかります。

★★★

さて、この震災ニュースプロジェクト、私がいろいろ取り組んだ震災関連プロジェクトの中でも、実は一番初めに着手したものなのです。調査を開始したのは震災当日の3月11日、翌日の3月12日からはニュース収集を開始しました。私はデジタル台風:ニュース・トピックスという似たようなシステムを2003年から運用していましたので、これを少し改良すれば地震ニュースにも使えるのではないか、というのが私の最初のアイデアでした。

そこから急いでシステム構築に着手し、未完成の仮バージョンを「東北地方太平洋沖地震関連情報」の最初のコンテンツとして公開したのが3月16日。まだまだ改良すべき点は多々あったのですが、その時点で私は作業を中断することを決めました。それは福島第一原発事故の状況が日に日に悪化しつつあったからでした。

福島第一原発から放射性物質の拡散が始まるにつれて、「風向きデータがない!」ことに多くの人々が大騒ぎするようになっており、気象庁がデータを隠ぺいしているのではと疑う人々まで出る事態になっていました。またSPEEDI予測も公表されなかったため、人々は拡散予測を求めて外国気象機関のウェブサイトに殺到していました。それに対して、私の手元には気象庁による風向き(シミュレーション)データがあり、GPV Navigatorというサイトで公開もしていたのですが、一般の人々でもわかりやすい表現にはなっていませんでした。この状況で私ができることは何か。福島第一原発周辺の風向きデータをわかりやすく提供することではないだろうか。どう見てもそちらの方が、ニュース記事の整理よりも優先度が高いと思えました。

私の最初の構想は、震災ニュースプロジェクトを数日でさっと完成させてから風向きプロジェクトに移るというものでした。しかし作業が遅々として進まない間にも放射性物質の拡散は悪化するばかりで、私は焦りました。震災ニュースプロジェクトなどやっている場合ではないと。そこで震災ニュースプロジェクトは未完成バージョンのままで打ち切り、風向きプロジェクトに作業の重点を切り替えることを決めました。

そうして数日後に緊急公開したのが福島第一原発周辺の風向きマップです。可能な限り急いで作業を進めましたが、やはり作業切り替えの判断が遅すぎました。風向きマップを公開できたのは3月22日、放射性物質の大規模拡散が発生した3月15日や3月21日には間に合わなかったのです(参考:福島第一原発周辺の風向・風速を公開しました)。

その後も福島第一原発事故に関するデータ処理を続ける中で、震災ニュースプロジェクトは緊急性が低いと判断せざるを得ず、各種の作業は後回しとなりました。しかしこのことが、震災発生直後の記事収集における網羅性の問題につながりました。私は台風ニュースでの経験から、「地震」や「震災」というキーワードを含む記事を検索して収集すれば、震災関連ニュースはおおむねカバーできると考えていました。ところが少したって落ち着いてからチェックしてみると、「津波」というキーワードも必要だと思えてきて、これを追加することになりました。さらに「地震」等の言葉を含まない震災関連ニュースが存在することにも気づき、ヤフートピックスからも記事を収集することにしました。

さらに大きな問題となったのが「原発」です。ニュース収集開始時に、原発事故関連ニュースを震災関連ニュースに含めるべきかどうかという点に迷いましたが、原発事故と震災は区別して扱うべきだという妙に潔癖な考えのもと、あえて「原発」というキーワードは使わなかったのです。しかし今から考えると、東日本大震災と福島第一原発事故を「原発震災」という一連の災害として扱わなかったのは、事態の見通しを誤ったと言わざるを得ません。4月に入るとさすがに判断ミスが明らかになってきましたので、「原発」等のキーワードも含めることにしました。その後、可能な限り遡及的に収集してはみたものの、「地震」「震災」等のキーワードを含まない原発関連記事の一部がコレクションから漏れてしまいました。その詳しい状況については、サイトで扱うデータをご覧ください。

その後も震災ニュースプロジェクトは後回しの状態が続きましたが、記事収集だけは継続していましたので、震災関連記事は着実に増加していきました。記事数が10万を越え、1周年の日には20万にも迫ろうという状況を見て、そろそろ過去を振り返るのによいタイミングが来たと思いました。そこで1周年プロジェクトとして、震災関連ニュースの分析が可能なウェブサイトの構築に着手することにしました。震災直後に最初に着手したプロジェクトなのに完成は最後となってしまいましたが、開始からちょうど1年たった3月12日に、ようやく「東日本大震災ニュース分析」の公開に至りました。

今後はこのコレクションを、東日本大震災に関するメディア分析研究に使ってみたいと考えています。震災に関して何が報じられたのか。逆に何が報じられなかったのか。どこの場所がたくさん報じられ、一方どこの場所が見過ごされてきたのか、こうした問題についてメディア研究者などと勉強会を開きながら調査を開始しています。テレビやソーシャルメディアなどと比較した分析も重要です。そうした分析を続けながら、「次」の災害に備えたよりよいメディアの構築を考えることが長期的な目標になると考えています。

★★★

東日本大震災から1周年、これを機会に、震災後にまとめてきた各種データを東日本大震災アーカイブと位置づけ、長期的な取り組みにシフトしていく予定です。以下、これまでの経過をブログ記事でたどってみます。
2週間後の記事で取り上げた「今後の課題」については、少しずつ実現しつつあるところです。また、震災プロジェクトを機にいろいろな人たちとも出会いましたが、そうした縁が今後につながっていけばいいなと思っています。
23:40 | 投票する | 投票数(6) | コメント(0)
2011/11/28

「プロメテウスの罠」から考える科学・社会・行政の関係

Tweet ThisSend to Facebook | by kitamoto
朝日新聞の「プロメテウスの罠」という連載記事が話題になっている。第3シリーズは「観測中止令」(2011年11月7日~2011年11月22日)。福島第一原発事故による放射性物質の拡散に関する観測と予測において、気象庁などの役所がどう動いたかという、私も強い関心を持っている話題を扱っていた。

まずはこういう話題を取り上げたことを高く評価したい。そして一連の記事の中で、私が特に関心を持った話題は、気象研究所からの論文公表や講演依頼が気象庁や気象研究所の上層部などの指示によって差し止めになった(?)という問題である。もしこれが本当なら、そこには公務員としての行動規範と研究者としての行動規範という異なる行動規範の衝突が生じていたことになる。もちろん職務上は、公務員としての行動規範に従う必要があるかもしれない。しかしこのような緊急時に公衆の利益になる重要な成果を公表しないことは、研究者としての倫理に反している可能性もある。そういう観点から、この事態の意味することを改めて検討する必要があると思うのである。科学と社会の関係はどうあるべきかという議論はこれまでも数多くあったし、科学コミュニケーションなどもその一つと言えるだろう。しかしそこに行政が介入してきて科学と社会の間を接続するチャネルが封鎖されたときに、研究者はどのように行動すべきなのか。それが今回の事態で問われたことだろう。私が日本気象学会の対応がおかしいと以前から言っている理由は、SPEEDIという行政システムのシングルボイスの下に研究者コミュニティを従属させ、社会と接続するチャネルを自らふさいでしまった点にある。

行政システムのような集権的な体制しかない場合、トップが判断ミスを犯したときに全体に大きな悪影響が及ぶことが今回の事故対応で明らかになった。ゆえに集権的なシングルボイス体制と並びたつ形で、自由に動ける多様なマルチボイス集団が社会には必要であると考える。そして研究者の役割は、自律的なマルチボイス集団をうまく維持して、シングルボイス体制と相補的な体制を作り出すことにある、というのが私の見立てである。もちろんマルチボイスであるがゆえの責任はある。多様性の中でもボイスの相互関係を説明するとともに、マルチボイスの中の共通性を取り出してなるべく少ない数のボイスに集約していくこと、などである。ただし放射線の人体への影響の議論などを見ていると、せいぜいダブルボイス程度にしか到達できないかもしれない。たとえそうだとしても、こうした集権的なシステムと自律的なシステムという複数のシステムを備えておくことには大きな価値があるはず。そして、そこに行政の過度なコントロールが及ばないようにするためのコンセプトが「学問の自由」なのだと思う。

一方、50年も継続した放射線観測が3月末に突然中止になった事件も紹介されている。もちろん観測を中止すべきでなかったのは明らかであるが、行政側の強い意思が働いて観測が中止に追い込まれたのかどうかについては、関係者の証言が錯綜していてよくわからない面がある。放射線観測がもともと縮小傾向にあったところに、関係者の以心伝心が食い違いを生み、局所的に下した状況判断が大局的に見ると大変まずい決断に至ってしまったという印象も受ける。例えば、中止命令が出た後も仲間の研究者の助けによって観測を継続したものの、後になってそうした観測を可能とした物品の「流用」をとがめられたというシーンが出てくる。なんとばかばかしいと思うかもしれないが、こういう杓子定規な対応は私の周囲でもよくあるもので、「嫌がらせ」ではなくルールに基づくまじめな仕事の結果であることも多いのである。「流用」に対して10円単位でも予算を返せというのか、と記者は皮肉のつもりで(?)疑問を呈しているが、そういう杓子定規な対応を招いた一端はマスメディアにもあるのでは、とここは突っ込みを入れたくなるところである。東日本大震災の復興においても、各地で杓子定規な対応が不満を呼んでいる。個人がルールに基づく「まじめな」対応をすると、現場の実情に応じた臨機応変な対応ができなくなり、全体として物事がうまく進展しなくなる。世の中全体に広がっている、大きな理念よりも細かいルールを優先する公務員的行動規範の矛盾を追及しない限り、いくら特定の個人を責めたって問題は解決しないのである。

だんだん「プロメテウスの罠」の悪いところに進んでいく。この点については、記事よりは長官記者会見要旨(平成23年11月17日) を見たほうがわかりやすい。ここには今回の記事を受けたと思われる質疑応答があるが、特に後半の質疑応答があまり意味のない方向に進んでいる(注1)。例えば「SPEEDIと気象庁との分担の問題」については気象庁の主張に分がある。拡散予測が国内で公表されなかった最大の責任はSPEEDIを公表しなかった文部科学省にあり、少なくとも気象庁には大きな責任はない(今後改善すべきという議論はありうる)。また「気象庁がIAEA向け拡散予測を隠蔽(?)した問題」も、以前にも述べたとおりIAEA向け拡散予測は国内対策には使えないものなのだから、これが公表されていたかどうかで事故対策に本質的な違いは生まれない。それに関連した「気象庁のシングルボイスの問題」についても、迅速な公開さえ担保されるのであれば、行政がシングルボイスであること自体はあまり問題ではない(そして実は国民の間にもそれを望む意見がある)。むしろその概念が拡大解釈されて、研究者コミュニティである日本気象学会までもが情報公開をためらうようなことがもしあるのであれば、それこそが問題だというのは先述の通りである。

行政対応のまずさの問題や行政の非効率の問題と、行政から科学への干渉の問題とは、本質的に異なる問題である。そして私としては、後者の問題をもっと取材してほしいのである。前者の問題は他の人でも追及できる。この連載を担当した中山由美記者には、ぜひ科学的視点からこの問題をさらに追及してほしいと願っている。

注1:この部分の質疑応答が誰によってなされたかは気象庁のページでは公表されていないので、「プロメテウスの罠」とは別の記者が質疑をしている可能性もある。

追記1:記事中の「森ゆうこ」議員の「活躍」については、疑問も呈されていることを付記しておきたい。森の一言によって予算が復活したかどうかは、森自身の証言によって確認できたわけではないようだ。

追記2:関連する話題を「数学セミナー2011年12月号」に書いた。タイトルは「SPEEDIによる放射性物質拡散シミュレーション/理想と現実の狭間から見えてきた問題」。この号には東日本大震災に関連するシミュレーションの記事が満載なので、ぜひ読んでみてほしい。
23:00 | 投票する | 投票数(9) | コメント(0)
12345

ブログパーツ