@d_tettu blog

メディアとかウェブとかネコとかそこらへん。たまに日記。

BuzzFeed急成長の立役者が語る「データサイエンス」への考え方

f:id:tettu0402:20141019070852p:plain
from :The Data Science Venn Diagram — Drew Conway

9月末から始まったBuzzFeedのデータブログ。初回を飾ったのは、先日VPの「Publisher」に昇格したDao Nguyenでした。

彼女はたった2年で1.5億ユーザー/monthにまで成長させた立役者として知られています。彼女がVPとして引き上げられた時、同社CEOのJonah Perettiは次のように述べたそうです。

彼女は新聞の権威を引き継ぐものではないし、ビジネスや広告売上、ましてや新聞販売に責任を負うものでもない。
それでも彼女は会社を率いる。「Publisher」として、テクノロジーやプロダクト、データ、パブリッシングプラットフォームに関わる全てを統括する。


BuzzFeed Names Dao Nguyen Publisher | Re/code

彼女が実際にBuzzFeedで何をしたのか、詳細に書かれた記事はあまり目にしたことがありません。読んだことのあるもので挙げてみると、Pinterestからのリファラーを2位に押し上げたり、モバイルからのトラフィックを最大化したり、サイト上でのコンテンツの配置に関するアルゴをいじったりとしてきたとか。

この記事の中で具体的なことにはふれられていませんが、彼女の存在がいかにBuzzFeedの成長を促したかということは書かれています。

編集主幹のBen Simth曰く「彼女は知的なひらめきに溢れているよ(She just has a lot of intellectual wattage)」とのこと。
※意味があってるかは自信ないけどこんなニュアンスかなあ

The Data Genius Behind BuzzFeed's Success | Inc.com

Daoが語る「データサイエンス」の考え方

そんな彼女が、データブログの初投稿の中で、「How BuzzFeed Thinks About Data Science」とするエントリーを投稿。

これ以後も興味深い分析が投稿されていますが、まずはこの投稿の中から、BuzzFeedのデータへの姿勢がどのようなものなのか、9つのポイントについて記してみます。

1. データは匿名化して扱う
まず、私たちは個人情報を尊重します。全てのデータは匿名化して扱い、厳格なアクセス権についてのポリシーもあり、技術的なセーフガードも構築しています。

2. 正しい「問い」がなければ、有用な「答え」はない
BuzzFeedではデータアナリストチームが分析を統括しているので、データを落とす前に、編集者が直感的に何を理解しようとしているのかを話し合っています。
問題が複雑になろうとも、正しい問いを持つことの重要性は他の何よりも先立つでしょう。

3. データを疑え
ビッグデータ信仰は、そのデータの量と信頼性を同等視します(集めて分析すれば信頼性が増すってもんじゃないよね的な)。
実際、そのデータは人間の書いたコードによって収集されたものです。バイアスだってかかるし、どのモデルの仮説だって間違う可能性はあります。

4. データは起こったことについて示すが、「なぜ」については示すことは稀だ
何が起きたかを理解すると同時に、その理由について分かったのだと思い込むべきではありません。
時々、データは私たちに何が起こりうるのかを示してくれますよね。予測的な分析は私たちの分析のコアな領域でもあります。
しかしそれでも、私たちは相関するデータを元に優れた予測アルゴを作ることはできますが、それは、私たちが予測しようとしているものの「なぜ」を理解していると意味するものではありません。
相関関係と因果関係は同じではないのです。

5. データは組織によってその力を変化させる
BuzzFeedには、勢いがあって優れたデータサイエンスチームがありますが、それはそれを後押しする企業文化があってこそです。

6. データの奴隷になるな
データはあなたに選択肢を知らせるべきもので、戦略を決定させるものではありません。

7.全てを統べる測定法などない
DAUだったりMAUだったりSNSでのフォローワー数だったり...etc
BuzzFeedはアートやサイエンス、良い判断の組み合わせでできています。バランスを理解することは競争上の優位性を生むのです。

8. データは十分に利用され、過剰に宣伝されるもの
どのメディア系企業もデータサイエンティストについて何らかのレベルで考えている、この昨今。
ラベリングに巻き込まれないように、私たちが解決する問題にこそ、フォーカスしていきましょう。

9. データは楽しい!
まだ学習していないことや、構築していないモデル...私たちはそんなことを楽しんでいるのです。同じプロジェクトなど一つもありません。


BuzzFeed Data Blog
※誤訳があったらごめんなさい、優しく指摘してください。優しさ大事。

これの他にも分析あれこれ

このDao Nguyenの投稿の他にも、例えばシェアと読了時間についての相関関係や、二者間の読んだ記事から別の好みそうな記事を推察する取り組みなど、大変興味深い投稿があります。
それらについての紹介はまた今度するとして(たぶん)、今回はBuzzFeedのデータへの姿勢を紹介して終わりにしようかなと。

新興メディア隆盛の背景にはテクノロジーが〜という話は各所で聞きますが、実際にどのような体制でどうプロダクトに組み込んでいるのか、具体的な話が出てこないので非常に気になりますよね。
そりゃまあ出ねえよっていう話ではありますが...だからこその競争原資なんだろうなあ。

日本市場に参戦してそこらへんのバイラルメディアが死屍累々になるという未来予測についてはどう考えているのだろう。