グーグルのクラウドを支えるテクノロジー > 第11回 「Cloud Dataflow」が実現するストリーミング処理の設計パターン
»
私が編集支援しているCTC教育サービスの中井悦司氏コラム「グーグルのクラウドを支えるテクノロジー」第11回 「「Cloud Dataflow」が実現するストリーミング処理の設計パターン」が公開されました。
###
はじめに
今回は、2015年に公開された論文「The Dataflow Model: A Practical Approach to Balancing Correctness, Latency, and Cost in Massive-Scale, Unbounded, Out-of-Order Data Processing」をもとにして、Cloud Dataflowによるストリーミング処理の設計パターンを学びます。
サンプルデータの見方
前回、MillWheelの解説の中で、ストリーミング処理では「データ処理の区切り」を設定する必要がある事を説明しました。Cloud Dataflowは、FlumeJavaのバッチ処理プログラミングモデルに、データ処理の区切りを設定する機能を追加することで、ストリーミング処理にも対応できるように機能拡張したものと考えることができます。
冒頭の論文では、図1のサンプルデータに対して、さまざまなデータ処理の区切りを設定する例が紹介されています。まずは、このサンプルデータの見方を説明しておきましょう。
この続きは以下をご覧ください
http://www.school.ctc-g.co.jp/columns/nakai2/nakai211.html
SpecialPR