@d_tettu blog

メディアとかウェブとかネコとかそこらへん。たまに日記。

#JCEJ のイベントで感じた「データクレンジング」のコスト

f:id:tettu0402:20150125083946j:plain
24日に法政大学構内で開催されたジャーナリズム・イノベーション・アワード。「みんなでつくる、次世代のジャーナリズム」をもとに、様々な作品が出品された。

表彰されたのは首都大学東京 渡邉英徳研究室による「台風リアルタイム・ウォッチャー」と、沖縄タイムス戦後70年取材班による「地図が語る戦没者の足跡」。前者に関してはどこからも紹介されずに、Twitter経由で3日で30万PVに達するなど、ユーザーのニーズを感じたそうな。いわゆるジャーナリストが作ったコンテンツではなかったけれども、それと同じような役割は果たしたように思える。

台風リアルタイム・ウォッチャー


台風リアルタイム・ウォッチャー:台風情報と「減災リポート」のリアルタイム・マッシュアップ



地図が語る戦没者の足跡


具志頭村「空白の沖縄戦」69年目の夏、戦没者の足跡をたどる | 沖縄タイムス+プラス

その他の作品も素敵なものが多かった。

ジャーナリズム・イノベーション・アワード 出展作品ラインナップ

コンテンツの地味な「コスト」

作品について色々とお話を聞きする中で、データクレンジングのコストについて切実なものを感じた。

例えば日経が提供する「人口減少地図 統計でみる市区町村のすがた」については、2人で約2カ月弱ほどの時間をかけて制作されたものだそうな(本来業務と同時並行ではあるだろうけど)。減少の一途をたどる日本の人口問題を可視化した作品だが、このコンテンツを作るにあたって、データを綺麗にする作業にかなりの時間を費やしたという。

「総務省と厚労省とでデータの出し方が異なったりするんですよね…例えば、総務省では各データに地域ごとのコード(北海道は01、沖縄は47、みたいな)をふっているのだけど、他はそうじゃない、とか。それを揃えたりするのがとても苦労した」「各年のデータを揃えようとしても、ある年だけなぜか集計していなくて『あーこれじゃあコンテンツにできないな…どうしよう…』みたいな徒労もあった。出そうとしても、穴があったらねえ」。

それ以外にも、朝日新聞デジタルでは前回の衆院選で「朝日・東大谷口研究室共同調査『政党・候補者のスタンスは」や、「全国『託され度』マップ」を提供したことについて、データの整理などにかなりの労力を費やしたとか。

特に前者に関しては毎日新聞やYahoo!みんなの政治は「ボートマッチ」(各争点について自分の意見に近いものを選択して、それに対する各党との相性を診断するサービス)を提供していたが、「マッチングする、そのスコアリングの中身がブラックボックス化している」のを課題とし、あくまでも生データでの提供にこだわったそうな。

こちらでも裏側ではデータの整理になかなかの時間を費やしたそうで、苦労がうかがえた。なお、一部ネットで話題になった「衆院選を動くグラフに 激増する無効・棄権票」については1週間ほどで制作(実際の制作期間は3日だったかな…)。「ある程度知見を溜めることができたので、コストを低減することができた」。

これらの他にもデータを使った様々な作品についてお話を聞かせていただいたのだけど、どれを聞いてもデータクレンジングに相当の時間を費やしていたようだった。

各省庁が出しているデータのフォーマットを整えてくれよ…とか、ある共通のテーマに関して(選挙における候補者データとか)、一括で整形してオープンにしたりできないのかねえ…など考えさせられた。

僕としても、過去にボートマッチのデータを見させて頂いて、地域ごとの争点に関する賛否について整理してみたりしたことがあったのだけど、なんというか途方も無い作業だった。Excelだと容量が大きくて扱えないから、MSのAccessを使い各テーブルごとに集計してみて、なんか数値がおかしいと思って調べてみたら、WimaxみたいなモバイルWi-Fiを利用しているとIPアドレスが異常値を出して…。「あ、これいつ終わるんだろう」。

ひたすらPCの画面をながめていた2週間だったが、データの整理だけで相当のコストだった。

今回のJCEJのイベントでも、そのあたり、データを綺麗にするとか、そもそもデータ化されていないようなものについてDBを整形するといったことに共通した課題があったように思える。提供元が提供するデータは綺麗に、整理されたフォーマットで一元提供するなど、まだまだ改善しなきゃいけないところはある。

もちろん何を伝えるかというそもそものところは大事ではあるけれども、上記のような各フェーズにおけるコストを下げないとなあ。

とりま、そんなことを感じたイベントだった。とても面白かったので、2015年度版も期待したい。