コンピュータソフトウエア協会、シリコンバレーに行く。Pivotalの巻き
Pivotalにわざわざ行った訳ではなく、EMCのbriefing centerでEMC Fedrationの説明の後にPivotalのSusheel Kaushik氏が来てくれたのだ。氏はSenior Director, Product Managementである。
Susheel Kaushik氏
PivotalのネタはBig DataとAnalytics。時間がなくてAnalyticsの話は聞けなかった。前のプリゼンの時間が延長されたので、氏は30分待つ羽目に、その隙にチョコマカと話をして後日インタビューする約束を取り付けた。その時はまたブログを書く積もり。
話はPivotalがオープンソースとしてリリースしたCloud Foundryを基に進んだ。
簡単に言うとOpenstackがIaaSのオープンソース版であるのに対してCloud FoundryはPaaSのオープンソース版である。そうなると当然、競合はRed HatのOpenShiftとなる。この2つの戦いはかなりのものになっている様だ。しかし、実際の売り上げ等を比較するとどちらも、まだSalesforceなどとは大きく水をあけられているとか。
主なIaaSタイプのクラウドはVMware、Openstack、AWSやその他である。残念ながら、主なIaaSの間には標準が存在しないため、それぞれはそのクラウド毎のアクセスが必要となる。PaaSはこの主なクラウド間のアクセスの違いを吸収してどのクラウド上でも作動することが望まれる。Cloud Foundryは正にその条件を満たす。この情況が以下の図にまとめられている。ここで面白いのは、アプリケーションは異なったクラウド間を移動させることが出来る。vMotionの様な機能だ。詳細な説明の時間はなかったが、vMotionに似通った方式であれば、以下の様だろう。移動先のクラウド上に移動するアプリケーションのVMのインスタンスをつくり、既に他のクラウド上で実行中の実行コンテキストをコピーして、最初のVMを停止して除去、新規のVMを実行して停止したVMと取り替える。この機能を利用すれば、負荷や情況によって幾つかの異なったクラウドを自由に利用できるようになる。プライベート、パブリック、ハイブリッドとどのような組み合わせも可能となる。
Kaushik氏はこの機能をvMotion以上の機能だと説明していた。vMotionが成立するには、数個の条件が必要だが、そのうちの2つは:
1.始点と終点がどちらもESXを作動していること
2.どちらの、点も同じネットワークに属しているいること
Cloud Foundryの場合、始点と終点の仮想化環境は異なっても良い。どうやっているんだろうか。同じ環境なら同じアプリからは同じVMが生成され、実行環境 やコンテキストは同期するのが容易だ。しかし、環境が異なれば、同じアプリであっても異なったVMが生成され、2つのVMの実行環境やコンテキストをつき 合わすのは困難だろう。これも、次にKaushik氏に会ったときに聞こう。この手の情報はあまりウエブにないような。。。。
更に、Cloud Foundryはオープンソースの無償版と有償版からなる。オープンソース版はここからダウンロードできる。情報はここ。多くのオープンソースがApache foundationに負かされる中、このプロジェクトは1握りの会社によるファウンデーションに任されている。有償版のPivotal CF (Cloud Foundry)の情報はここから。
簡単に言うと、以下の図の様にCloud Foundryはアプリケーション処理の部分とデータ処理の部分から成り立つ。
アプリケーション処理側は以下の図ので紹介されている。
データ側はPivotalが使用し始めたData Lakeと言う言葉で示されている。ではData Lakeとはなんぞや。ここのサイトによると:
次の2つの特性を満たす情報システムのこと。
1.Big Dataを格納できる並列システム
2.データを移動せずにその場でそのデータにコンピュテーションを行える
現在これを満たすのはHadoopくらいのものだ。以下の図を参照。図のHDFSはHadoopで使用される分散型ファイルシステムのこと。このファイルシステムの上で、analytics、トランスアクション処理やイベント処理を行うことが出来る。
更に、次の図で示す様に、種々のデータアクセスが可能だ。
本当に面白いのは、集められたデータを如何に使って有益な情報を引き出すかだ。筆者はアナリティクスにはまっている。Hadoopは主にバッチシステムには向くが、リアルタイムの解析には向かない。
それには、Nathan Marzが主張するLambda Architectureが必要だ。このアーキテクチャーはStormというオープンソースで実現されており、Twitterの重要な部分を占めている。
Apache Storm
現在Marz氏は本を執筆中で、筆者も途中まで出来た本を読んでいる。Pivotalはバッチとリアルタイムをどの様に組み合わせているのか興味は尽きない。