当ブログの読者の方は、社内のデータを集計して報告書を作成するような機会が多いのではないでしょうか。

今さら言うまでもなく、MS Excelはちょっとした集計や分析に使えるソフトウェアです。関数を駆使すれば、他のシートにあるデータと結合するなどの複雑な処理まで可能です。たしかにExcelは手軽に使える便利なソフトウェアですが、だからと言って全てをExcelで処理することは無理があります。

例えば、数百万件単位のデータを、並べ替えたり集計したりしなければいけなくなったとします。データファイルが1つならまだしも、他のデータと結合しなければならないとしたら、Excelでは無理でしょう。さらに、一発で答えが見つからずに、条件を変えて何度も試行錯誤しなければならないとしたら、Excelでは徹夜必須です。

こんな時は、餅は餅屋、道具は適材適所です。横浜にある株式会社ターボデータラボラトリーが販売しているインメモリデータ処理ソフトウェア「Aktblitzシリーズ」がお奨めです。

例題として、自動車の販売データを考えます。販売履歴のデータが、以下のような並びのCSV形式のファイルになっているとします。

販売日

販売年

セールスマンID

商品ID

2000/9/1

2000

セールスマンID-0139

車ID-001

2000/9/1

2000

セールスマンID-0149

車ID-001

2000/9/1

2000

セールスマンID-0363

車ID-001

2000/9/1

2000

セールスマンID-0692

車ID-001

データの項目数はわずか4つです。Excelでも全く問題ありません。では、このデータが200万件あったらどうでしょうか。実際にやってみました。

今回の実験に使ったのは、CPUがPentium 4、メモリは2Gバイト、Windows XPのパソコンです。数年前の旧式なスペックです。

販売履歴.csvファイルのサイズは、83.9 MB (88,000,039 バイト)になります。

200万行のテキストファイルをWindows付属の「メモ帳」で開いたら、読み終わるまで1分弱かかりました。また、テキストエディタの定番「秀丸エディタ」では7秒かかりました。この行数になると、開くだけでそこそこ時間がかかります。

次に同じファイルをExcel 2007で開いてみました。

Excel 2007はExcelの弱点であった最大行数65,000行の制限がなくなりました。と言っても無制限になったわけではなく、1分くらいかけて、1,048,575行まで読み込んだところで止まってしまいました。この辺がExcel 2007の限界のようです。

1

200万件で試すことができないため、約半分になりますが、1,048,575行のデータで並べ替えを行いました。「商品ID」をキーにして全体を並べ替える操作です。これには25秒かかりました。

200万件のデータを扱えないのでは、Excelは使えません。仮に200万件のデータを読めたとしても、100万件のデータを読むのに1分、並べ替える度に25秒では、待ち時間が長くストレスが溜まります。

これをAktblitzでやったらどうなるでしょうか。

AktblitzのユーザインタフェースはExcelに似た表形式です。CSVファイルを指定すると、Excel同様に区切り文字や項目のデータ型を指定する画面から始まります。最後の読み込み実行をクリックしてから終了するまで、わずか7秒でした。200万件をしっかり最後まで読んでいます。秀丸エディタ並の速さです。

2

「商品ID」をキーにした全体の並べ替えは、なんと1秒以下です。画面の左下に表示される処理時間の値はわずか47ms、1000分の47秒しかかかっていません。

3

この超高速ぶりには、ちゃんと理由があります。Aktblitzではターボデータラボラトリーが開発したLFM(Linear Filtering Method) 技法が使われています。データをジョイン・データ変換・集計などの基本的なデータ処理に適した全く別の形式に変換した上で処理を行います。そのため、超高速な処理が可能になりました。

今回はCSVデータの読み込みと単純な並べ替えの説明でした。これはAktblitz優れた機能のほんの手始めにすぎません。不定期連載になりますが、Aktblitzでどんなことができるかを、これからご紹介していきたいと思っています。

関連エントリ

【広告】

「Aktblitz」のお問い合わせ・デモのご依頼は、株式会社テクネコで承ります。以下のリンクからお気軽にお問い合わせください。

テクネコ

Special

- PR -
コメント

コメントを投稿する
メールアドレス(必須):
URL:
コメント:
トラックバック

http://app.blogs.itmedia.co.jp/t/trackback/77444/23140473

トラックバック・ポリシー


» このブログのTOP

» オルタナティブ・ブログTOP



プロフィール

加藤和幸

加藤和幸

株式会社テクネコ 代表取締役。
ITを売る側と買う側の両方の経験を活かして、CRMとCMSのコンサルティングを中心に、お客様の”困った”を解決します。

詳しいプロフィール

カレンダー
2012年2月
      1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29      
カテゴリー
エンタープライズ・ピックアップ

news094.gif 富士通元社長の山本卓眞氏が残した次代へのメッセージ
富士通の社長、会長を務めた山本卓眞氏が亡くなった。哀悼の意を込めて、日本のIT産業界の大御所が残した次代へのメッセージを紹介しておきたい。(2/6)

news094.gif Facebook就活はもう古い?
約260人のブロガーが、ITにまつわる時事情報などを日々発信しているビジネス・ブログメディア「ITmedia オルタナティブ・ブログ」。その中から今回は「就活」「都心の雪」「ソーシャルメディア」などを紹介しよう。(2/4)

news094.gif 東北をコットンの生産地としてブランディングしたい──リー・ジャパン・細川取締役
塩害に強い綿の生産で東北に新たな産業を作りたい。オーガニックコットンの採用など、環境負荷を下げるジーンズ生産に取り組んできたリー・ジャパンの新たなチャレンジとは──。(1/30)

news094.gif 東北から始まるイノベーション
企業のICTを活用と若手IT技術者による東北発のイノベーションが、中長期的な震災復興の鍵となる。(1/27)

news094.gif 貧困国の雇用を創出する印刷屋、丸吉日新堂印刷の挑戦
全国から約2万7000件の名刺制作を受注をする札幌の小さな印刷会社の成功の秘密は、地道な社会貢献にあった。(1/16)

オルタナティブ・ブログは、専門スタッフにより、企画・構成されています。入力頂いた内容は、アイティメディアの他、オルタナティブ・ブログ、及び本記事執筆会社に提供されます。

Special

- PR -

サイトマップ | 利用規約 | プライバシーポリシー | 広告案内 | お問い合わせ