IT業界でベンチャービジネスの支援をしている執筆者が日々の活動ログと感じたことを、徒然なるままに書き綴っていきます。

グーグルのクラウドを支えるテクノロジー > 第35回 社内横断データセット検索システム「Goods」(パート1)

»

私が編集支援しているCTC教育サービスのコラム「 グーグルのクラウドを支えるテクノロジー > 第35回 社内横断データセット検索システム「Goods」(パート1)」を公開しました。

このコラムは中井悦司氏によるコラムでとても人気です。

わかりやすく最新のGoogleテクノロジーをご覧になりたい方は是非お読みください。

###

はじめに
 今回からは、2016年に公開された論文「Goods: Organizing Google's Datasets」をもとにして、Bigtable、Spanner、GFSと言った、Google社内のデータストアを横断的に検索可能にするツール「Goods(Google Dataset Search)」を紹介していきます。最近、複数のデータストアにまたがった情報を横断的に検索・活用する手法として、「データレイク」という考え方を耳にするようになりました。これは、260億件という膨大な数のデータセットに対してデータレイクの仕組みを実現した、Googleの社内事例と言えるでしょう。

Goodsの役割
 Googleの社内には、ソフトウェアエンジニアが開発中に使用するファイルシステム(Google Filesystem)やデータ分析に利用するデータベース(Spanner)など、さまざまなデータストアがあります。これらのデータストアに含まれるデータセットをカタログ化して検索可能にすることが、Goodsの大きな目的です。具体的には、図1のような情報をカタログ化しています。

この続きは以下をご覧ください
https://www.school.ctc-g.co.jp/columns/nakai2/nakai235.html

Comment(0)

コメント

コメントを投稿する