マルチソースビッグデータを活用するにはメタデータ管理が重要
先週は、テラデータのユーザー会イベント「PARTNERS」の取材で米国アトランタに行っていた。
基調講演では新CEOビクター・ランド氏のお披露目があり、Teradata DatabaseがAWS、Azureといったパブリッククラウドで動くようになること、プライベートクラウドへの対応ではVMwareにも対応することなどが表明され、オンプレミスでアプライアンスのイメージが強かったテラデータもクラウドにコミットすることが表明された。
ところでこのPARTNERSというイベントは、ユーザー会が主催するもの。なので、ベンダーが行うマーケティングイベントとはちょっと趣向が異なる。主役はあくまでもテラデータのユーザーであり、ユーザー同士が情報交換をして、よりテラデータの製品を使いこなしていこうということに主眼が置かれている。
そんな訳で、さまざまなテラデータを使っている企業が、自社の悩みをどう解決したか、いまどんな形でビッグデータ活用をしているかなどを発表するセッションがたくさん行われる。そんな中で面白いなと思ったのが、LinkdeInによる「アナリストのコラボレーション分析」に参加した際に訊いたマルチソースのビッグデータ活用を行おう際のメタデータ管理の重要性の話だ。
データレイクを作って、Teradata DatabaseのようなRDBMSからHadoopにもSQLでアクセスする仕組みは構築できる。または、BIツールからSQLでRDBMSのデータウェアハウスにもHadoopの非構造化データにも透過的にアクセスできる環境も、今なら作ることはできる。とはいえ、実際にそういう環境でアナリストがデータを収集して分析を行おうとすれば、どこにどんなデータがどういう形で置いてあるかが整理されていなければならない。それが分からなければ、データを収集するためのSQLだって書くことができないのだ。
ところがこのどこにどんなデータがどういう形(どういうデータベースに)で保存されているのか、そのデータの鮮度はどうなっているのか的なことを一元的に管理するのは大変なのだ。手作りのツールなどで手作業で管理するというのが普通だ。いや、よくあるのはExcelなどで管理するなんてこともあるだろう。それだと、データの変化に追いつくことができないのが今の時代。ましてやマルチデータソースになってしまうと、だれがどう管理するのかも難しくなる。
そんなときに活躍しそうなのが、こういったマルチソースビッグデータのためのメタデータ管理のツールだ。今回のPARTNERSでたびたび登場していたのが「Alation」という会社のツール。まだ日本法人もなく、日本に進出していないようだが、データベース側のログなどの情報も収集し、プッシュでデータを提供してくれたりとなかなか便利そう。今後のビッグデータソリューションの中で、頭角を現してくるツールとなるかもしれない。すでにebayなどの事例もあるようで、米国ではそれなりに知られていそうだ。
今回日本からセッションの講演者として参加していたYahoo! Japanでも、このツールには興味を持ったようだ。こういうツールの必要性が語られるようになったのを見ると、ビッグデータ活用はいよいよ本格的な活用フェーズに入ってきたのかなと思わせられるところだ。