【インメモリDB】1,000万行のCSVデータ、いつでも歓迎(2)
前回は200万件のCSVファイルを読み込んで、並べ替えするところまで説明しました。今回は複数のデータを結合する処理の説明です。
初期状態は以下のようになっています。2つの販売履歴データがあります。1998年から1999年までのデータが176万件、2000年から2001年までのデータが200万件です。内容は、販売日、営業マンID、商品IDの3つです。
この他に、関連するデータとして、営業マンマスタ、パーツマスタ、車マスタがあります。
ここで4年分のデータを通しで分析するために、2つの販売履歴データを結合して1つのデータにまとめたいと思います。このような場合、Excel 2007は最大約100万件の制限があるため使えません。MS SQL ServerやOracleなどの本格的なリレーショナルデータベースが必要になるでしょう。
SQLで書くと以下のようなイメージになります。
SELECT 販売日, 営業マンID, 商品ID FROM 販売履歴1998_1999
UNION
SELECT 販売日, 営業マンID, 商品ID FROM 販売履歴2000_2001
リレーショナルデータベースを使うには、SQLの知識が前提となります。Aktblitz(アクトブリッツ)を使えば、エクセル風の直感的な操作が可能です。
まずマウスで「販売履歴1998_1999」を「販売履歴2000_2001」にドラッグ&ドロップで重ねます。結合の種類で「縦結合(UNION)」を選択すると、以下のダイアログが表示されます。
単純な縦結合であれば、「自動設定」をクリックするだけで、画面の下半分に同じ名前の結合項目が自動選択されます。「OK]をクリックすると、一瞬で376万件の新しいデータ「販売履歴2000_2001_#1」が生成されます。この処理にかかったCPU時間は、わずか188ミリ秒(画面左下に表示)です。
私が長い間使ってきたSQLリレーショナルデータベースでは、ここまで速いのを見たことがありません。これだけでクラクラ来るくらい刺激的です。
さて、販売履歴には、営業マンIDや商品IDしかありません。これでは人の目で見て意味がわかりません。営業マンマスタに、営業マンの名前、年齢、性別、所属などの項目があります。営業マンマスタと販売履歴を結合してみましょう。
この操作も同様です。画面の左上で「営業マンマスタ」を「販売履歴2000_2001_#1」にドラッグ&ドロップします。今回は「縦結合」ではなく「Joinの実行」を選択して、両方の「営業マンID」をJOINキーとして設定します。
「OK」をクリックすると、370万件の販売履歴の項目数が3から12に増えた新しいデータ「販売履歴2000_2001_#2」ができます。処理時間は141ミリ秒です。370万件の結合に141ミリ秒は驚きです。
この次に車マスタと結合したいところですが、ここでAktblitzのクセというか、一つの制約があります。仕様上、結合でできたテーブルにさらに結合することができません。このため、結合でできたテーブルから元になったテーブルに必要な項目(営業マンの名前、年齢、性別、所属など)をコピーする必要があります。この操作を「項目転送」と言います。項目転送にかかる時間も1秒以下です。
以下は、項目転送が完了して、「販売履歴2000_2001_#1」の項目数が11になった状態です。最初に項目が3つで、営業マンマスタから営業マンIDを除く8項目を転送したので、項目数が11になっています。
項目転送が終わったテーブル「販売履歴2000_2001_#2」は不要なので削除します。
同様の手順で車マスタを販売履歴に結合して、車名やカテゴリなどを項目転送します。繰り返しになりますが、結合したいテーブルをドラッグ&ドロップして、結合列を指定するだけなので、とても簡単です。
さらにパーツマスタと結合してみます。車マスタや営業マンマスタと販売履歴の結合は1対1でしたが、パーツマスタは1種類の車に500種類のパーツが対応する1対多結合になります。パーツマスタと販売履歴を商品IDで結合した結果は、18億8,375万件になります。これだけの処理でもかかった時間はわずか109ミリ秒です。ここまで来るとSQLリレーショナルデータベースを使っても一仕事です。しかもこれが数年前のスペックのパソコンで楽々動くのです。(参考:32bit版Aktblitzは、最大20億行までのデータを取り扱うことができます。)
ここまでの処理をSQLで書くと以下のようなイメージになります。
SELECT 販売履歴.*, 営業マンマスタ.*, 車マスタ.*, パーツマスタ.*
FROM 販売履歴, 営業マンマスタ, 車マスタ, パーツマスタ
WHERE 販売履歴.営業マンID = 営業マンマスタ.営業マンID
AND 販売履歴.商品ID = 車マスタ.商品ID
AND 販売履歴.商品ID = パーツマスタ.商品ID
結果として全部のデータを結合した23項目の販売履歴テーブルができました。今回はここまでで保存して終了です。Aktblitzの独自形式による保存は、数秒で終わります。
試しに、AktblitzからCSV形式でファイルを書き出してみたら、全体の10分の1をエクスポートするのに79分かかりました。この時点でCSVファイルのサイズは3.9Gバイトでした。最後まで待てそうにないので途中で中断しました。
関連リンク:
「Aktblitz」のお問い合わせ・デモのご依頼は、株式会社テクネコで承ります。以下のリンクからお気軽にお問い合わせください。