オルタナティブ・ブログ > てくてくテクネコ >

顧客サービスとITのおいしい関係を考える

【2,000億行】データベースに入りきらないデータ求む

»

超高速インメモリデータベースシステム製品「AktblitzII / DAYDA.LabooII シリーズ」で有名な株式会社ターボデータラボラトリーが、とんでもない新製品をリリースしました。

その名前は「1/3 C Reader・Publisher」(ワンサード シー リーダー・パブリッシャー)です。実に地味な名前です。名前だけでは全く凄そうに思えません。しかし、「2000億行、1024項目の瞬間検索ブラウザー」と聞くと、ちょっと気になる方がいるかと思います。

ターボデータラボラトリーの古庄晋二社長は「1/3」という理論を元に、独特の製品を開発しています。新製品の「1/3 C Reader・Publisher」の「C」はComplementary(相補的)の頭文字です。

「1/3」技術がメモリの高速性を活用して対話型バッチ処理を実現するのに対し、「1/3 C」技術はディスクの大容量・不揮発性を活用して、最大2,000億行、1,024項目を「自由にブラウズ」できるようにします。

最大2,000億行です。凄いですね。

企業や公官庁には、長年蓄積された膨大なデータを持っているところがあります。例えば、気象庁のアメダスは以下のような規模のシステムです。

アメダスは1974年11月1日から運用を開始し、現在、降水量を観測する観測所は全国に約1,300ヶ所あります。このうち、約850か所(約21km間隔)では降水量に加えて、風向・風速、気温、日照時間を観測しているほか、雪の多い地方の約290か所では積雪の深さも観測しています。

これだけの数の観測所が日々記録しているデータは、膨大な量になるはずです。しかも年数が経過すればするほど増えていきます。

民間企業の例を挙げると、ヤマト運輸の宅急便の取り扱い個数は、年間約12億個です。その集配データはどのくらいの件数になるのでしょうか。

データ件数が数百万件なら、一般的なリレーショナルデータベースでなんとか処理できるかもしれませんが、数億の桁となると厳しいのではと思います。

「1/3 C Reader・Publisher」は2,000億行までのデータを、パソコンで自由に表示・検索できる画期的なソフトウェアです。リレーショナルデータベースが「現時点のデータを矛盾無く保持する」ことに力点を置いているのに対し、「1/3 C Reader・Publisher」は「確定済の過去のデータをすべてため込む」ためのソフトウェアです。

製品は、ReaderとPublisherに分かれます。

あらかじめ、膨大な量のデータをPublisherで処理して、D5A形式のファイルに変換しておきます。D5Aファイルは単一の巨大なファイルです。データ件数によっては、TB(テラバイト)クラスになることがあります。Windows Vista以降でGPT(GUIDパーテーションテーブル)がサポートされたことにより、2テラバイトを超えるディスクパーティションを扱えるようになりました。

Publisherの仕事はここまです。

Publisherで作成されたD5Aファイルを読む時に使うのが、Readerです。Readerは一般的なスペックのWindowsパソコンで使えます。巨大なD5Aファイルをスクロールしながら眺めることや、条件に合った行を瞬時に絞り込むことが簡単にできます。

D5Aファイルからデータを切り出して自分で加工したい場合は、Readerで選択したデータを

1)CSV形式で保存する

2)Excel形式で保存する

3)同社のAktblitzIIで扱えるD5T形式で保存する

ことができます。

実際にデモを見せてもらいました。

6項目・40億件のデータをPublisherで処理して作成したD5Aファイルのサイズは、822GBになります。このデータ規模になると、メモリにすべて載せることは無理ですし、リレーショナルデータベースで扱うとしても厳しいと思います。

Readerのデモで使ったのは、Windows7の普通のノートパソコンです。Readerの動作は想像以上に高速でした。データの件数を全く意識させない軽々とした動作を実感しました。

標準で用意されているReaderは、エクセルのような表形式の機能を持ったWindowsアプリケーションです。ターボデータラボラトリーはそのエンジンを無償で配布し、GUIは無償かつオープンソースとして公開する予定です。つまり、ユーザが自分の使い方に合わせた専用のReaderを開発することができます。特定業務に組み込んで使うことが可能になります。大きすぎてこれまでハンドリングできなかった様々なデータがD5Aファイルとして入手できるようになれば、すごいアプリケーションがつくれるかもしれません。久々にワクワクする気分です。

ライセンス体系は、Publisherのサーバ1台について月額課金です。1ヶ月にPublishするD5Aファイルの数は無制限です。ReaderやD5Aファイルは無償で、どのように使うかの制限はありません。詳細は、ターボデータラボラトリーのWebサイトに資料(PDF)があります。

億単位の大量データの管理にお困りのお客様で、ご興味がありましたら、弊社お問い合せフォームよりお気軽にお問い合せください。

関連リンク:

Comment(2)