オルタナティブ・ブログ > てくてくテクネコ >

顧客サービスとITのおいしい関係を考える

【インメモリDB】1,000万行のCSVデータ、いつでも歓迎(2)

»

前回は200万件のCSVファイルを読み込んで、並べ替えするところまで説明しました。今回は複数のデータを結合する処理の説明です。

初期状態は以下のようになっています。2つの販売履歴データがあります。1998年から1999年までのデータが176万件、2000年から2001年までのデータが200万件です。内容は、販売日、営業マンID、商品IDの3つです。

Ws000510

この他に、関連するデータとして、営業マンマスタ、パーツマスタ、車マスタがあります。

ここで4年分のデータを通しで分析するために、2つの販売履歴データを結合して1つのデータにまとめたいと思います。このような場合、Excel 2007は最大約100万件の制限があるため使えません。MS SQL ServerやOracleなどの本格的なリレーショナルデータベースが必要になるでしょう。

SQLで書くと以下のようなイメージになります。

SELECT 販売日, 営業マンID, 商品ID FROM 販売履歴1998_1999

UNION

SELECT 販売日, 営業マンID, 商品ID FROM 販売履歴2000_2001

リレーショナルデータベースを使うには、SQLの知識が前提となります。Aktblitz(アクトブリッツ)を使えば、エクセル風の直感的な操作が可能です。

まずマウスで「販売履歴1998_1999」を「販売履歴2000_2001」にドラッグ&ドロップで重ねます。結合の種類で「縦結合(UNION)」を選択すると、以下のダイアログが表示されます。

Ws000512

単純な縦結合であれば、「自動設定」をクリックするだけで、画面の下半分に同じ名前の結合項目が自動選択されます。「OK]をクリックすると、一瞬で376万件の新しいデータ「販売履歴2000_2001_#1」が生成されます。この処理にかかったCPU時間は、わずか188ミリ秒(画面左下に表示)です。

Ws000513

私が長い間使ってきたSQLリレーショナルデータベースでは、ここまで速いのを見たことがありません。これだけでクラクラ来るくらい刺激的です。

さて、販売履歴には、営業マンIDや商品IDしかありません。これでは人の目で見て意味がわかりません。営業マンマスタに、営業マンの名前、年齢、性別、所属などの項目があります。営業マンマスタと販売履歴を結合してみましょう。

この操作も同様です。画面の左上で「営業マンマスタ」を「販売履歴2000_2001_#1」にドラッグ&ドロップします。今回は「縦結合」ではなく「Joinの実行」を選択して、両方の「営業マンID」をJOINキーとして設定します。

Ws000516

「OK」をクリックすると、370万件の販売履歴の項目数が3から12に増えた新しいデータ「販売履歴2000_2001_#2」ができます。処理時間は141ミリ秒です。370万件の結合に141ミリ秒は驚きです。

Ws000517

この次に車マスタと結合したいところですが、ここでAktblitzのクセというか、一つの制約があります。仕様上、結合でできたテーブルにさらに結合することができません。このため、結合でできたテーブルから元になったテーブルに必要な項目(営業マンの名前、年齢、性別、所属など)をコピーする必要があります。この操作を「項目転送」と言います。項目転送にかかる時間も1秒以下です。

以下は、項目転送が完了して、「販売履歴2000_2001_#1」の項目数が11になった状態です。最初に項目が3つで、営業マンマスタから営業マンIDを除く8項目を転送したので、項目数が11になっています。

Ws000518

項目転送が終わったテーブル「販売履歴2000_2001_#2」は不要なので削除します。

同様の手順で車マスタを販売履歴に結合して、車名やカテゴリなどを項目転送します。繰り返しになりますが、結合したいテーブルをドラッグ&ドロップして、結合列を指定するだけなので、とても簡単です。

さらにパーツマスタと結合してみます。車マスタや営業マンマスタと販売履歴の結合は1対1でしたが、パーツマスタは1種類の車に500種類のパーツが対応する1対多結合になります。パーツマスタと販売履歴を商品IDで結合した結果は、18億8,375万件になります。これだけの処理でもかかった時間はわずか109ミリ秒です。ここまで来るとSQLリレーショナルデータベースを使っても一仕事です。しかもこれが数年前のスペックのパソコンで楽々動くのです。(参考:32bit版Aktblitzは、最大20億行までのデータを取り扱うことができます。)

Ws000519

ここまでの処理をSQLで書くと以下のようなイメージになります。

SELECT 販売履歴.*, 営業マンマスタ.*, 車マスタ.*, パーツマスタ.*

FROM 販売履歴, 営業マンマスタ, 車マスタ, パーツマスタ

WHERE 販売履歴.営業マンID = 営業マンマスタ.営業マンID

AND 販売履歴.商品ID = 車マスタ.商品ID

AND 販売履歴.商品ID = パーツマスタ.商品ID

結果として全部のデータを結合した23項目の販売履歴テーブルができました。今回はここまでで保存して終了です。Aktblitzの独自形式による保存は、数秒で終わります。

試しに、AktblitzからCSV形式でファイルを書き出してみたら、全体の10分の1をエクスポートするのに79分かかりました。この時点でCSVファイルのサイズは3.9Gバイトでした。最後まで待てそうにないので途中で中断しました。

関連リンク:

「Aktblitz」のお問い合わせ・デモのご依頼は、株式会社テクネコで承ります。以下のリンクからお気軽にお問い合わせください。

Comment(0)