データガバナンスとデータレイクは表裏一体
最近データガバナンスという言葉をよく聞きます。
ガバナンスというぐらいですから、企業にとって必要(そう)なものなのでしょうが、なぜ必要なのかイマイチわかっていませんでした。おわかりですか?
ITに強いビジネスライターの森川滋之です。最近の取材や調査で知ったことを、出せない固有名詞は省略してお伝えします。
以前も書きましたが、最近IT企業から直接でも代理店経由でも、いただく仕事はアナリティクス、AI、IoTおよび(これらと関連する)クラウドといったものがほとんどです。
いろんな有識者や実際に導入している人たちの話を聞いて記事にまとめるわけですが、僕自身には構築経験がないので、構築経験がある人が常識としてすっ飛ばしてしまうような部分で分からないことが出てきます。
最近では、「データガバナンス」というのがそれで、取材のテーマから考えると本筋でないのですが、聞けば時間がかかりそうなので、何となくキーワードだけ押さえているという状態が続いていました。
それが「データレイク」(実はこちらもよくわかっていませんでした)をテーマとした取材で、ようやくわかったのでした。
●データガバナンス???
だいたい「ガバナンス」という言葉はわかりにくい。みなさん「コーポレートガバナンス」という言葉をご存知でしょうが、説明できますか? 「内部統制」と何が違うと聞かれたら、頭を抱えたりしませんか?
※こちらにわかりやすい説明があります。
「データガバナンス」という言葉はもっとわかりにくい。何しろWikipediaにまだ項目が立っていません( ̄□ ̄;) (と、今知ってなんだか無謀な投稿をしているような気がしてきました)。「データ品質」という項目にちょっとだけ記述がある程度です。
e-WordsのようなIT用語辞典にもまだ項目がありません。本当にこんな言葉があるのか心配になってきました(あります)。
ガバナンス(統治)というぐらいなので、コンプライアンス(法令順守)ともちろん関係があります。機密情報や個人情報などが漏洩しないように、ポリシーやルールを決め、セキュリティ対策をするというイメージです。もちろんデータガバナンスにはこのような要素も含まれます。
しかし、こんなことは昔からやっています。最近になって「データガバナンス」という言葉出てきた(なにしろまだネット辞典類には載っていない新しい概念なのです)理由にはなりません。
何なんだ、これは?
●データレイクとは?
「データレイク」も最近流行り出した言葉です。これも今調べたら、ネット辞典系にまだ載っていないようです。
この前データレイクをテーマに4,500字ほどの記事を書きましたが、厳密に説明するとそれぐらい必要になるので、ごく簡単に説明します。
これはビッグデータの貯蔵庫です。ビッグデータ解析では、SNSのテキストデータや、センサーから送られてくるバイナリデータなども取り扱います。これらはRDBで扱うのは様々な意味で非効率です。
また今すぐ使うとも限りません。ですので(若干加工はしますが、ほぼ)そのままの形式でとりあえず貯めておくことが必要となります。そのための貯蔵場所がデータレイクになります。
そして、どこそこに貯蔵しておくので、現場部門で勝手に解析してくださいと案内するわけです。
似たようなものに、DWH(データウェアハウス)があります。
DWHにおいては、情シス部門が構築し、現場部門で使う場合には別途データマートを作成して、それを使ってくださいとやっていました。しかし、データマートができるまでには早くても数週間、通常は数カ月かかるので、データ分析して仮説を作れるようになったころには、もはや市場は大きく変化しているなんてことになります。
とにかく早く分析して、仮説を立てて、市場で試行錯誤したいという現場部門のニーズに応えるために登場したのが、データレイクなのです。
●ユーザがデータレイクを使うためにデータガバナンスが必要
さて、データレイクというのは、とにかく何でもかんでもデータをほぼそのまま貯めておく場所だと思われたかもしれません。実際にそのようなことをいう人もベンダーもいます。
しかし、そのままではデータレイクならぬ(これもネット辞典系にはまだ載っていませんが)データスワンプというものになってしまうと多くの人が言っています。レイクがきれいな湖をイメージしているのに対し、スワンプは泥沼のイメージです。
データスワンプになってしまうと、現場部門で勝手にデータを使っていいと言われても、まず必要なデータを探すことができません。また探せたとしても、データの出所がわからず、本当に正しいのかわかりません。それ以前に、データ項目の並びもわかりませんので、データの意味がさっぱり分からないということになります。
したがって、現場部門に安心して使ってもらえるようにするためには、データの出所と正しさを保証し、データ項目に関する情報(メタデータ)を提供し、さらにどこにどんなデータがあるといったカタログを提供する必要があります。
このような一連の情報付加作業とその後のデータの品質保証をデータガバナンスというのです。
DWHに関しては、もともとこのようなことはすべて含まれていました。したがって「データガバナンス」という言葉も必要なかったのでしょう。しかし、データスワンプならぬデータレイクを構築しようと思ったら、データガバナンスは必須です。
データレイクとデータガバナンスという言葉が最近になって一緒に流行しているのは偶然ではないのです。
◆ご購入はこちらから → http://amzn.to/2kyKcTH
◆立ち読みはこちらで → http://s-morikawa.jp/etc/galley.pdf
97ページ分(全体の44%)読めますので、お暇ならどうぞ。
ただ電車で読むのはお勧めできません。