オルタナティブ・ブログ > 少しでもパラノイアになってみる >

知的好奇心を満たすために、いろいろなことにチャレンジする

データ公開に関する要望

»

今回の震災で企業及び官公庁がデータを供出するようになりましたが、公開データのフォーマットに関して要望が多く出ました。

例えば、東電が最初画像ベースで電気使用量を公開しましたが活用しづらいので後からCVSが公開されました。PDF、excelや画像データによるグラフではデータを見る分には支障はないのですが、加工して活用するには不便です。

ですが、それでも提供方法はスマートではないと思います。

例えば、東電は電気使用量ではCSVで公開しましたが、2つの問題があると思います。

・データの中に2つのデータが入っている(こんなCSVファイルはじめて見た)
・本日だけのデータしか公開していない(前日もありますが)

統計データを扱う場合は、過去のデータは必要です。今後の予想をする基礎データにするためです。このため、当日のデータしか公開しないのは統計データとしてあまりいいとは思えません。

文部科学省は放射線のデータを出していますが、PDFしか見つけることが出来ませんでした。gooの全国放射線量マップβ版では数字が出ているため、データとして提供されているのかも知れませんが。ただし、東電とは違って過去のデータがあります。

気象庁の地震データは、また微妙にアクセスしづらいところがあります。地震大国のためか過去のデータにアクセス可能な震度データベースがあります。アクセス可能とはいえ、最大50件しか一度に取得できません。また、HTMLでしか提供されません。DBの負荷を軽減するためかもしれませんが、もう少し方法があったのではないかと思います。

良い例として、私が良く利用するSPECは、コンピュータ系だからかも知れませんが、データのアクセスに関して検索してデータを取得可能です。ついでにある程度の加工もしてくれます。提供データはHTMLもありますがCSVでダウンロード可能です。このため、加工が非常にしやすいです。

データを加工に前提の場合はHTMLの様なコストがかかるフォーマットよりもCSVが便利です。そのCSVも圧縮できれば転送量が減ります。いえ、月毎に圧縮ファイルがあれば、トラヒックも減り、HTTPサーバの負荷も減ると思います。ユーザには加工するコストがかかりますが、そんな気にする必要はありません。そのようなデータを見るユーザがそのコストを払うことに頓着するとは思えないためです。

このように見るとお役所的なところは時代にあっていないデータの提供方法をしているように見えます。

統計データは、加工され、他の情報とあわせてようやく活用できると思います。放射線データもそれ自体は増えた・減った、基準値と比べて多い・少ないとか論じてもあまり効果的ではないでしょう。福島原発への対応状況・ニュース(放水しかとか、煙が出たとか)とあわせて見るとより理解できます。例えば、ある作業によって射線量が増減しているから対策が有効だったか、天気や風量にどの程度広がっているかを論じることが出来ると思います(放水してから放射線量が増えたように思えるが、それが事象と直結しているのか少し不明ですが)。

電気使用量も気温と曜日とマッチさせればもう、もう暖かくなるので停電は大丈夫かなと予想することも可能です。

データをまとめて加工するキュレーションの時代なので、データを受ける側が提供されたデータだけで鵜呑みする時代はもう終わっています。

今回の震災でデータを提供する側にもう少し意識を変えてほしいものです。コストがかかるかも知れませんが。その場合は、もうWEB系企業にデータを丸投げしてもいいのではないかと思うのです。

Googleはpublic data explorerとして、多くのデータ公開を受け持っています。今回の震災による放射線量、電気使用量、地震、津波のデータはpublicだと思うのです(電気使用量は東電のデータですが、節電を依頼する限りはもうpublicの分類)。もっと低コストでこのようなpublicのデータをシェアすべきだと思います。

私としてはテキストベースのデータで公開してくれれば十分ですが、出来ればCSVだけではなくJSON形式で提供してくれるとうれしいです(XMLよりは低コストだと思いますけどね)。

Comment(0)