研究ブログ

データジャーナリズムで日本の電力問題を可視化する

1. データジャーナリズムとは


データジャーナリズムとは、データがストーリーの核となるジャーナリズムの一形態です。これまでのジャーナリズムが文字(+音声)や写真(+図)、ビデオ(+映画)を核としてストーリーを語ってきたのに加えて、これからはデータを核としてストーリーを語るという新しい形態のジャーナリズムが広まるかもしれない。それを私は、これまでの三世代に続く「第四世代のジャーナリズム」として捉えています。

なぜ「データジャーナリズム」がいま注目されているのでしょうか。それは世界を記録する多種多様巨大なデータが、本当に面白い現象を捉えるようになったためでしょう。データを活用することで、新しい視点から世界を語ることがジャーナリズムにも期待されますが、その一方でジャーナリズム側には、そうするのに必要なスキルが十分に蓄積されていないのも実情です。こうしたスキルがないメディア企業は優位性を失うのではないかということから、先進的なメディア企業はデータジャーナリズムに関する実験的試みを数年前から開始して経験を蓄積しています。日本でも2012年あたりからは、メディア企業が本腰を入れ始めてきた感があります。

データジャーナリズムについては、英語ではData Journalism Handbookという本が出ており、これで現在進行形の情報をある程度はつかめるでしょう。

2. データジャーナリズムの電力問題への適用


データジャーナリズムという言葉が登場したのはここ数年ですが、私のこれまでの研究を振り返ってみると、データジャーナリズム的なアプローチ、あるいはアルゴリズム的側面に焦点を合わせた計算論的ジャーナリズム(computational journalism)的なアプローチに基づくものが多いような感があります。そこで本記事では、データジャーナリズム的なアプローチが特に強いエレクトリカル・ジャパンを取り上げ、東日本大震災を契機に日本の最重要問題の一つに浮上した電力問題をデータで語るとどうなるか、その実践を総括してみたいと思います。



以下では説明のために、データジャーナリズムを五段階のプロセスに分けてみます。すなわち、収集、整理、可視化、ストーリー化、公表です。このようなプロセスには合意された標準的な分類はありませんが、上記の分類は特に変わったものではないと思います。また実際にはプロセスは段階的に進行するわけではなく、いくつかのプロセスを往復しながらゴールを目指すことになります。

3. データの収集


まず電力問題を語るのに欠かせない、発電所データについて考えてみましょう。日本全国には現在いくつの発電所があるのでしょうか?え、そんなの、発電所データベースをネット検索して、ダウンロードして、調べればいいのでは。そう考えるかもしれません。ところが残念ながら、ネットはまだそこまで充実してはいないのです。ネット上の発電所データベースはいずれも部分的なもので、全国の全電源をカバーする網羅的なデータベースは見つかりません。そこでやむを得ず発電所データベースを自力で完成させることに決め、ようやく3300か所の発電所を登録するまでに至りました。そのあたりの苦労話はエレクトリカル・ジャパン(発電所マップ+夜景マップ)を公開中ですに触れましたので、ここでは繰り返しません。ただしここで強調しておきたいのは、もしデータベースを誰かがすでに作ってくれているなら、それは幸運なケースだということです。もしなければ自分で作る。データジャーナリズムにおいても、地道な取材活動によってデータを集める作業を避けては通れないと思います。ジャーナリストは「足で稼ぐ」とよく言われますが、データジャーナリストも「腕で稼ぐ」あるいは「指で稼ぐ」意気込みが必要でしょう。

またデータジャーナリズムが従来のジャーナリズムと異なるのは、書いたら終わりの記事とは異なり、もしデータベースを作ったとしたら「終わりがない」ということです。私は個人的には「データベースは更新が命」だと思っています。ある時点で頑張ってデータベースを完成させても、それを更新せずに放置したら、その内容は徐々に腐って価値を失っていきます。特に発電所データベースの場合、現在は再生可能エネルギーの普及が進むという特別な変革期に突入しているため、古いデータベースでは再生可能エネルギー発電所のカバー率が大幅に低下することは避けられません。データベースの充実に限界があるとはいえ、例えばメガソーラーに関する情報をどうやって継続的に更新していくのかを考えなければなりません。

そこで重要となるのが継続的な取材活動です。私が使っているのはGoogleニュースを中心とした検索エンジンです。発電所に関する新着情報を調べ、もしあればそのソースとなる情報を探し、そこから情報を取り出してデータベースに登録します。ソースがしっかりしたプレスリリースを公表していれば情報収集は容易ですが、プレスリリースがなければ別のソースを比較しながら裏取りをします。もちろん電話取材すれば万全ですが、私はプロではないのでさすがにそこまではやらず、ネット上のリソースに取材対象を限定しています。そして発電所データベースの場合、特に問題となるのが位置情報です。プレスリリースに市町村名ぐらいは書いてあったとしても、緯度経度が書いてあることはまずなく、アクセス地図も書いていない場合が多いのが実情です。そうした発電所を地図上にマッピングするには、発電所の全景写真や周囲風景の描写などから、立地場所を絞り込んでいかねばなりません。そうした丹念な取材活動が必要になるのです。

4. データの整理


こうして手元にデータを収集できたら、次はデータのフォーマットを後の処理で利用しやすい形に変換します。デジタルデータのフォーマットには、大別すると機械可読なものと機械可読でないものがあります。そして機械可読でないデータは、基本的に人力で打ち込み整理する必要があります(OCRの精度はまだ不十分です)。最近は人力で打ち込む方法にも変革が起きており、クラウドソーシングや情報ボランティアの活用などには将来性があります。しかしここでは機械可読データの整理に話を絞り、機械可読データといっても整理は一筋縄では進まないことを書いておきたいと思います。

まず最初の題材として電力統計「見える化」で活用している電力調査統計(経済産業省資源エネルギー庁)を取り上げます(参考)。これはウェブサイトでエクセル形式(XLS形式)で提供されており、一般的にこの形式はプログラム処理しやすい「機械可読形式」だとみなされています。ところが実際にこれを機械処理させようとすると、そう簡単ではないのです。というのも、エクセル表は人間可読性を向上させるための「マス目」として使われており、機械可読性についてはほとんど考慮されていないからです。例えば同じ統計表のはずなのに、年度ごとにセル位置が違うなどのフォーマット揺れや、誤ったセル結合によるセル関係の不整合が年ごとにバラバラに発生するなど、種々の問題が見えてきます。それらの問題を自動的に解決して「真の」機械可読データに変換するのは、そう簡単な作業ではありません。

統計表のもう一つのポイントは時間軸の扱いにあります。統計の目的は2つ、すなわち現状を知ることと過去から現在までの変化を知ることにあります。いずれの目的においても、ある変数の時間変化を知ることは統計の根幹となる重要な機能です。ところが、実際の統計表は現状を知ることを優先した表現、すなわち時間変化するデータのスナップショットを表現することが目的となっているものが多いのです。これは、最新状況をさっと把握したいというプロの統計利用者の利用方法に照らせば妥当だとは思いますが、ある変数の時間変化を知るためには複数の統計表をまたいでデータを拾っていく必要が生じます。

こうしたデータの構造化を考えた場合、表層的な表構造をそのままデータ構造にするべきでしょうか。カテゴリカルなデータの場合、項目の並び順はどうしても恣意的な面が入ってしまうため、表の上で隣り合う列や行という関係性には本質的な意味が薄い場合があります。また統計表の2次元表形式はデータ集合を複数の切り口(ファセット)の掛け合わせとして集計した表現であり、そこにはもともとのレコードにあったはずの変数が合成されて出現するというなかなか複雑な構造になっています。私の個人的な経験では、こうした表層的な表構造ではなく、それぞれの変数の時間変化という深層構造を構造の基本単位とする方が、構造化への見通しがよいと感じました。こうした面倒な処理はぜひツールボックス化して、人間可読用エクセル表をうまく扱うノウハウを蓄積していければなと思います。



次の題材として、電力会社が公開する電力使用状況データを取り上げてみます。こちらは上のXLS形式よりはマシなCSV形式で、間にはさまっているコメントの処理などを除けば比較的素直に処理プログラムを作成することができます。しかし問題はフォーマットだけにとどまりません。過去データを単一のCSVファイルで提供する会社もあれば、日ごとのファイルに分割して提供する会社もあります。また1時間ごとの電力量を提供する会社もあれば、それをしない会社もあります。つまり機械可読性を議論するならば、データフォーマットの問題だけではなく、データアクセスとデータ項目の統一についても配慮する必要があるのです。こうした差異を吸収した統一的なAPIが用意されて初めてデータ利用は本当に簡単なものとなるでしょうが、そうしたAPIが整理されているようなデータはまだまだ少ないのが実情です。東日本大震災以降、複数のウェブ企業が電力使用状況APIを提供していますが、一時的な提供という位置づけのためか、細かく見ると種々の問題が残っているものもあります。やはりデータ提供元がきちんと検証したAPIを提供するのが自然であり、ウェブ企業がその展開を支援するという位置づけで継続的に連携していくことが課題だと考えます。

5. データの可視化


データは数字や文字の羅列ですので、人間が理解しやすい形に可視化する必要があります(もう一つの可能性として「可聴化」がありますが、ここでは触れません)。可視化には長い歴史があり、定番の方法も揃っています。例えば時間軸を横軸にした線グラフはある変数の時間的な変化を追いやすいため、定番ながらも有効な手法です。ただし、単に時系列グラフを描くだけなら、大げさに「データジャーナリズム」などと言いたてる必要はありません。データジャーナリズムの可能性は、伝統的な可視化手法を越えた新しい表現や、インタラクティブ性や高精細度を利用した大量データの表示を通して、データに潜んでいる事実を明らかにしたり、データを解釈するための文脈を与えたりする点にあるからです。

最初に取り上げる題材は電力統計「見える化」です。このページでは先に整理した電力調査統計やその他のデータを可視化しており、可視化にはData-Driven Documentsというライブラリを用いています。このライブラリでは様々な種類の可視化が実現できるのですが、電力統計「見える化」では、結果的にほとんどの可視化に時系列グラフを使いました。その理由は、この方法が基本的で汎用性が高く、意味も理解しやすいという点にあります。ただ単なる静的なグラフではなく、複数の表示項目をインタラクティブに切り替えることで、多くの視点からデータを眺められるようにしています。



ただし「見える化」の中では、一般電気事業者間の送受電実績(月ごと)および一日の最大電力と気温の関係のみ、時系列グラフ以外の表現を使うことにしました。前者は融通電力という数学的には「グラフ構造」に関するデータを扱っているため、グラフの一つのノードに着目すれば時系列グラフは描けるのですが、全体像を可視化するにはグラフ構造そのものを描く必要があるからです。また後者は変数の時間変化そのものより、時間軸を捨象した2変数関係の方に興味があるため、点の描画のアニメーションとしてデータを表現することにしました。また電力使用状況に影響を与える気象データとしては気温日照時間が代表的ですが、そのうち特に影響が大きい気温に関するアメダスデータを使って、電力と気象という全く由来の異なる2種類のデータを突き合わせました。その結果、電力消費が最小となるのは各社共通して気温15度から20度の間であるという性質が浮かび上がり、可視化による全体像の把握として興味深い図が得られました。

次の例として電力使用状況を取り上げます。ここでは時系列グラフに一つの工夫を加えました。それは30日間の時系列データを一枚のグラフに重ね合わせることで、現在と過去を比較するという「文脈」、すなわち今日の電力使用量が多いのか少ないのかを30日間という時間の枠の中で、見た目で比較できるようにしたのです。このように大量データの描きこみと背景化、そして大量データという文脈の付与によるデータ解釈の支援という方法は、高精細化した可視化表現で可能となるものだと言えます。

ただしデータジャーナリズムにおける可視化では、ストーリーを伝えるという当初の目的を忘れてはなりません。つまり、見かけの新奇さではなく、あくまで読み取れる情報量の多さで判断すべきということです。上記の「見える化」でも、実は他のもっと「かっこいい」可視化も試してみました。そうした例はData Driven Documents (d3.js)のギャラリーにもたくさん紹介されており、動きが面白い手法などは見かけのインパクトもなかなかです。しかしそうした可視化の有用性はデータの性質に依存する場合も多く、今回のデータでは意味を読み取ることが難しいとの判断に至りました。単に可視化して自己満足というのではなく、その可視化から何が読み取れるのかを考える。そうした観点から最適な可視化を選んでいくというセンスも、データジャーナリズムに必要なスキルなのではないかと思います。

6. データのストーリー化


これまでの三段階を行きつ戻りつしながら、最終的な可視化とストーリーを練り上げていく段階です。ここで重要となるのは、データの可視化がどれだけのストーリーを喚起するかという点でしょう。例えばフォトジャーナリズムでも、たった一枚の写真が豊かなストーリーを語ることがあります。まさに「一枚の絵には千語の価値がある(A picture is worth a thousand words)」、これが報道写真として理想的な写真でしょうし、それは単なる記録としての写真とは質において決定的に異なります。同じことがデータジャーナリズムについても言えるのではないでしょうか。一つの可視化から豊かなストーリーが湧いてくること、それがデータのストーリー化の目標と言えます。

そうした例として発電所マップをまず取り上げます。これは、日本全国の発電所の立地点と、夜間の照明を撮影した衛星画像(参考)という、全く由来が異なる2つのデータを1枚の地図の上に重ねたものです。ここで、前者を「電力供給マップ」、後者を「電力消費マップ」と位置づけると、両者の間に関係性が見えてきます。電力の供給と消費という、コインの裏表のようなデータが1枚の地図上で重なっているからです。例えば、水力発電所風力発電所は暗い僻地にあるんだなとか、火力発電所は明るい都市部に多いんだなとか。では原子力発電所は、どんな場所に分布しているのでしょうか?福島第一原発事故でも供給地と消費地の関係性の問題が問われました。原発で発電した電力は、原発事故で避難を余儀なくされた地元で消費されるのではなく、遠く関東地方に送り届けられて消費地を支えていること。そんな地域の問題にも思考が及んでいき、一枚の絵からストーリーが広がっていく感があります。

そして供給地と消費地の関係性の問題は、実は原子力発電で始まったものではなく、もっと昔の水力発電や火力発電の時代から続くものです。福島県は水力発電所の時代から東京に電気を送り届けており、猪苗代地域の水力発電所建設と東京への長距離送電は、大正時代の代表的な電源開発として知られています(参考)。また常磐炭田などから掘り出された石炭の活用が、現代の火力発電所にもつながっています。そんな歴史を考えさせるのが日本の発電所の歴史です。これは過去から現在まで、日本の発電所がどのように増えてきたかをアニメーションで示すものです。この可視化には、過去に廃止された火力発電所がないという大きな問題はあるのですが、それでも水力や火力の小規模発電所が中心だった時代から、高度経済成長の時代に入って大型発電所が各地に続々と建設され、それが原子力発電所を含むベストミックスの時代へと進んでいった歴史を感じることができるでしょう。こちらも日本の電源開発の歴史に考えが広がるような可視化になっています。



最後に統計を用いた探求について例を示しましょう。対象とするのは、以前にも取り上げた一般電気事業者間の送受電実績、すなわち電力会社間の電力融通に関するデータです。「電力融通」という言葉は、東日本大震災後の電力危機で有名になった言葉で、電力供給がピンチになった時に他社から電力を購入する「応援融通(需給相互応援融通電力)」がよく知られています。しかし電力融通にはその他に、事前の契約に基づいて電力を融通する「協力融通(広域相互協力融通電力)」があります。これは電力が余っている会社が電力を他社に売却することで儲けられるだけでなく、購入する側も高コストの発電所を動かすより安い電力が買えれば、双方にメリットがあるという制度です。特に2011年3月以前には電力危機自体が存在しませんでしたので、その時期の電力融通はこうしたタイプのものだったと言ってよいでしょう。

さて上のグラフのスライダーを動かして、時間をさかのぼってみましょう。2011年3月、大規模電源脱落で危機を迎えた東北、東京の各電力会社には、全国各地から電力融通が実施されています。2011年3月から2011年5月にかけて、通常は融通が少ない50Hzと60Hzの境界を越えて、西日本から東日本に向けて大規模な電力融通が続いており、あの時がいかに例外的な期間であったかと当時の混乱を振り返ってしまいます。ところが面白いのは、2011年3月よりもさらにさかのぼると、実は電力融通が大幅に拡大するのです。特に東京と東北の間の電力融通がずば抜けて大きい。あれ、話が違いますね。電力危機で融通が増えたんじゃなかったの、と。

先に触れたように、2011年3月以前は電力危機が存在しませんでしたので、この時期にそんな大規模な応援融通がされることは考えにくい。ですのでこれは日常的な電力の融通、すなわち発電コストの最適化のための協力融通だと考えるのが妥当でしょう。東京と東北の間では双方向に送受電が大きいので、その差分を取って相殺してみると、一貫して受電が多いのは東京であることがわかります。つまり東北から東京に向けて、継続的に電力が流入していたことになります。これはいったい何でしょうか?



その原因を探るために、他のデータとマッシュアップをしてみましょう。重ねるデータは、同じ電力調査統計にある発電設備利用率です。例えば原子力発電設備利用率と重ねてみます。そしてこのグラフを東北に切り替えてみると、面白いことに気づきます。東京への送電量と、東北の原子力発電設備利用率が、かなりよく対応しているのです。これは単なる偶然とは思えません。というのも、原子力発電設備利用率は定期検査や事故調査などの内部要因で主に変動するものですし、運転中はベース電源として一定の設備使用率をキープするものでもありますので、少なくとも融通という外部要因に応じて変動する性質の数字ではないからです。となると因果関係は逆で、東北電力の原子力発電所(女川原発東通原発)の設備利用率が送電量に影響を与えている、という仮説が浮かんできます。

では他社のデータはどうなっているでしょうか?実は似たようなパターンを他社にも見出すことができます。それが、関西と中部に融通する北陸と、関西に融通する四国です。実際にどの時間帯の電力を融通しているかまではデータがありません。しかしもし夜間であれば、ベース電源である北陸電力志賀原発四国電力伊方原発が発電する電力のうち、管内では使い切れない電力は余剰電力となって、それを他社に融通(売電)することが重要な事業になっているのではないでしょうか。こうしたことは企業情報などを分析することでも推測できそうですが、電力データからも改めてそうした構造が浮かび上がってくる点が興味深いです。また、各社の原発が止まって全国的にも余剰電力が縮小した現在、他社からの継続的な融通に多くを期待できる状態ではなくなり、これが2012年夏の関西における電力危機の遠因になったのかもしれない、といった感じでストーリーが膨らんでいきます。

このように複数のデータをマッシュアップしてストーリーを浮かび上がらせることが、データジャーナリズムの重要な一ステップとなるでしょう。それをストーリーとして洗練させるには、もっと事実の確認や他のデータと合わせたより深い追究が必要になり、そこがデータジャーナリストとしての腕の見せ所になるでしょう。

7. 公表


こうして得られたストーリーを外部に公表するのが最後の段階です。伝統的な記事のようにテキストに可視物を挿入するスタイル、あるいは写真中心記事のように可視物にキャプションテキストを挿入するスタイル。ただしデータジャーナリズムとしては、より多様なチャンネル、例えばツイッター等のソーシャルメディアを活用したリアルタイム公表へと展開することも重要な課題でしょう。エレクトリカル・ジャパンでも@electricaljapanにおいて、電力使用率が95%を超えるとリアルタイムでツイートを生成して公表するという方法で、データをトリガーとするニュース速報を運用しています。ただしこんな単純な仕組みだけではなく、データ処理に基づき自動生成したマイクロ記事に単純な速報は任せるような技術も、今後は進んでいくと考えています。

またデータジャーナリズムでは、テキストにおいてもできるだけ定量的な表現を入れていくことが望ましいと考えています。定量的だから客観的だとは必ずしも言えませんが、少なくともデータを根拠とした「あいまいな形容詞を排した」「主観的な印象だけを根拠としない」テキストを書くようにする。そしてデータジャーナリズムが、データを根拠とする社会におけるインフラストラクチャとして機能するならば、きちんとした根拠を広めていくという重要な役割を担っていく必要があるのです。

8. オープンデータの重要性


最後にデータジャーナリズムを支える重要な側面であるオープンデータの話題に触れます。データジャーナリズムは、データを取材してそれを分析して公表することで成り立つ分野です。したがって公表できないデータ、あるいは事実上公表が困難な厳しい利用制限があるデータは大きな障害となります。従来からあったように、特定顧客のための秘密のデータ分析という枠組みを越えて、広く社会の意思決定にデータを活用していくには、データのオープン性が不可欠なのです。これは必ずしもデータは無料であるべきということではありません。それよりも、データを加工する権利、そしてそうしたデータを公表する権利が保証されることが重要だと考えます。

最近はデータジャーナリズムと歩みを揃える形で、オープンデータという考え方、そしてデータをオープンにする主体としての政府に着目したオープンガバメントという考え方にも注目が高まっています。これらはいずれも、データを根拠とする社会の実現に向けて、同時進行する動きとして捉えられるでしょう。そうした動きが日本においてどのような展開を見せるのか、今が重要な時期になっています。東日本大震災でデータ共有の重要性を再認識したいま、そして日本に先んじて各国でデータのオープン化が進展するいま、日本でもようやくオープンデータへの動きが加速しつつあります。しかしその具体的な制度設計はこれからが勝負。それが社会にとって有用な形で将来にわたって継続する制度になるかは、ここ2-3年が勝負になりそうな感じです。

どの分野も同じで、データに関してもやはり既得権益のようなものはあります。またデータを提供する側のメリットが小さいのも大きな問題ですし、ビジネス的にはデータの囲い込み(クローズデータ)の方がむしろトレンドかもしれません。オープンデータはどちらかというと理念先行で、現状分析がやや弱いという面があります。しかし社会に共有してこそ価値を生むデータは政府系データなどでも数多くあるわけですから、まずは理念に基づきデータのオープン利用を促進してみるというのが第一歩でしょう。そこから新しいデータのエコシステムが成長していけば、その中でデータジャーナリズムも育まれていくのではないでしょうか。