【新刊書】「ビッグデータ テクノロジー完全ガイド」地に足の着いた理解のために
できたての新刊「ビッグデータ テクノロジー完全ガイド」を、翻訳されたシロクマ日報の小林啓倫さんにお願いして一冊いただきました(買えよ>自分)。
日頃よくわからないままIBMとかGoogle Cloud ComputingとかTwitterのFirehoseとかの関連記事を書いているのが実はとても恥ずかしいので、少し勉強しようと。
まだ全部は読み終えていないんですが、300ページあるので読んでから感想を書いてたら遅いぞ、ということでつまみ読みの感想です。
「ビッグデータ」は流行り言葉になって一人歩きしてますが、この本は「ビッグデータすごい、なんでもできる」本ではなくて、すごく地に足の着いた実践的な解説です。
なにしろ著者のマヌーチェッリさんはGoogleのエンジニアで、実際に日々ビッグデータと格闘しているんですから。
Firehoseもそうですが、インターネットのおかげで気の遠くなるほど膨大な量のデータ(=ビッグデータ)が日々増殖しています。
こうしたビッグデータは使いようによってはものすごい宝の山ですが、文字通り大きすぎてとっかかりがつかめず、「宝の持ち腐れ」になりそうです。
とっかかりがつかめない理由の1つは、前代未聞なスケールのデータなので、まだそれを扱うための万能な決定版ツールがないことです。
でも、世の中には大企業じゃなくても使える関連ツールが、良くも悪くもいっぱいあります。
問題は、いっぱいありすぎて、どう組み合わせればいいのかわからないこと。全部の組み合わせを試していたら、到底目的にたどりつけません。
そんなわけで、本書は目的に合わせてそれぞれに適したツールの組み合わせを具体的に紹介しています。
- 大規模分析にはHadoopやHiveやいろいろ
- リアルタイム分析にはBigQueryといろいろ
- 処理の統合にはMapReduceといろいろ
- 機械学習(!)にはApache Mahoutといろいろ
というように。Hadoopとか聞いたことはあっても使い方は私にはもちろん分からんのですが、何をするものなのかおぼろにわかるだけでも今後の記事書きの助けになりそうです。ましてやそれぞれについて基礎知識がある人だったらすごく参考になるのでは。
この本のいいところはそれだけじゃありません。
ツールありきではなくて、まず目的をはっきりさせて意思決定するために必要な考え方を(私にも分かる)平易な表現で説明してあるところです。例えば大量のデータを保存して共有するためにも道具が必要です。どういう方法で、どんなデータ形式で、アクセス権限はどうして、更新はこうして、など、全部決めなくちゃいけない(気が遠くなりそう)。そういうときの考え方が紹介されてます(Thrift、Protocol Buffers、Avroなどの具体的なツールも紹介されてます)。
FacebookやGoogleが今力を入れている機械学習(マシンラーニング)についても第5部で解説しています。Mahoutを使った機械学習ツール(テキストの分類)の例が載ってて、ほよー自分でもやってみられるのかとびっくり(私にはできないけど)。
あと、13章の「自分で開発するか購入するかアウトソーシングするか判断する方法」と14章のまとめは、技術者じゃなくても参考になると思いました。
翻訳が良いからももちろんあると思いますが、文章は平易で親しみやすいです。解説書でも人柄って不思議とにじみ出るものですが、マヌーチェッリさんは陽気で前向きな感じで読んでいて楽しかったです。