グーグルのクラウドを支えるテクノロジー　＞　第115回　Napa：ストリーミングデータのデータウェアハウスシステム（パート2）

» 2021/11/10

私がマーケティング支援しているCTC教育サービスはコラム「グーグルのクラウドを支えるテクノロジー　＞　第115回　Napa：ストリーミングデータのデータウェアハウスシステム（パート2）」を公開しました。

＃＃＃

はじめに
　前回に続いて、2021年に公開された論文「Napa: Powering Scalable Data Warehousing with Robust Query Performance at Google」を元にして、Google社内で利用されている、Napaと呼ばれるデータウェアハウスシステムを紹介します。今回は、ストリーミングで受け取ったデータを検索可能な形に変換する「Storage」の処理について説明します。

差分データによるデータ更新処理
　「データベースのテーブルに新しいデータを書き込む」という処理を素朴に考えた場合、「最新のデータを保持するテーブルがあり、新しいデータを受け取るごとにそのテーブルを上書きで更新する」という流れをイメージするかも知れません。しかしながら、Napaは、リアルタイムに生成されるデータをストリーミングで受け取るという特徴があるため、受け取ったデータを即座にテーブルに反映するのではなく、「差分データを蓄積しながら、差分データ同士を徐々にマージしていく」という戦略を取ります。図1は、差分データがマージされていく様子を示した図になります。

この続きは以下をご覧ください

https://www.school.ctc-g.co.jp/columns/nakai2/nakai2115.html

吉政忠志 2021/11/10 08:00:00 Comment(0)

SpecialPR

日	月	火	水	木	金	土
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

グーグルのクラウドを支えるテクノロジー　＞　第115回　Napa：ストリーミングデータのデータウェアハウスシステム（パート2）

最新の投稿

吉政忠志

2026年7月

グーグルのクラウドを支えるテクノロジー ＞ 第115回 Napa：ストリーミングデータのデータウェアハウスシステム（パート2）

最新の投稿

グーグルのクラウドを支えるテクノロジー　＞　第115回　Napa：ストリーミングデータのデータウェアハウスシステム（パート2）