予測アルゴリズムを賞金1億円で公募 - 時価総額を5倍に増やしたNetflixの驚くべきビッグデータ経営(2)
Netflixはビッグデータ活用のクラウドソーシングの試みを、2007年〜2009年とかなり早い段階に行っています。”Netflix Prize”と名付けられた、賞金1億円の予測アルゴリズム提案コンペティションです。賞金が大きいですから、データサイエンティストのコミュニティの間ではかなり話題になったようです。
当時、事業がDVDレンタル主体だったなかで、同社は売上を増やすために、会員が見終わった後で付ける星5つまでのレーティングを予測することに主眼を置いていました。会員がDVDを借りに同社サイトを訪れた際に、その人が高い評価を付けそうな作品を推薦することができれば、見終わった後に高評価を付け、「やっぱり満足した」ということになります。これがレンタルの好循環につながります。
仮に、予測がはずれて、その会員が気に入らない作品を推薦してしまえば、「なんだNetflixのレコメンデーションは大したことないな。次回からは当てにしない」ということになってしまいます。後々の利用にも響きます。
社内で開発したレーティング予測のCinematchというシステムは、Root Mean Squared Error (RMSE) と呼ばれる誤差の指標が0.9525でしたが、それ以上は数値が上がらないため、賞金1億円をかけたコンペティションで、社外の人材に、これを10%以上改善するアルゴリズムの提案を求めました。
優勝者は、機械学習や統計学のプロフェッショナル7名から成るAT&T Bellkor研究所のチーム。107あるアルゴリズムの中から、最良の組み合わせを見つけるべく2,000時間をかけ、最終的にMatrix Factorizationと、Restricted Boltzmann Machinesの組み合わせで課題を達成しました。2,000時間かけて1億円ということは、1時間当たり5万円ですね(笑。
これに基づいて同社はCinematchを改善し、予測の精度を上げました。2009年〜2010年にかけての話です。
ここまでして磨きをかけたCinematchを、同社は2010年以降はあまり使わないようになります。というのも、DVDレンタル主体からオンラインストリーミング配信主体へと事業の中身が切り替わり、配信対象も、PC、iPhone、Android、Rokuなどのセットトップボックスなど計100種類に拡大したからです。
こういう事業内容では、「宅配されたDVDを見終わった後で付ける星の数」を予測しても意味はありません。もっと先進的なデータ分析、すなわち、オンラインで取れるデータはすべて取り、それによって、前例がないほど個別の会員の嗜好を細かく理解し、その人が行動する前から「次に何を見るかがわかる」ぐらいにならないといけません。一言で言うなら、Personalization。それを実際にどう行ったかは、前回の投稿の後半で記しました。
同社の技術環境の話は、まだ資料の読み込み中なので次回に。