オルタナティブ・ブログ > IT倉庫番24時 >

ストレージの話題に加え、面白いと思ったこと、日常の気づきなどをSE的、理系思考で綴ります。

情報爆発への現時点での処方箋 その1

»

 近年データの急激な増加が問題視されており、従来からのアーカイブやILMといった対応に加えて、データ重複削減とリアルタイム圧縮テクノロジーが注目されています。
 データ重複削減とリアルタイム圧縮はどちらもデータ自体を少なくあるいは小さくしようと言うアプローチですが、バックアップなどの非活動データではなく、活動中の主データに対しての適用を考えた場合、現時点の技術ではリアルタイム圧縮が有効と考えています。

 その主な理由は、重複削減では重複を確認するために必ず比較という処理が入ることです。 圧縮であれば比較は不要で受け取ったデータを随時処理すればよいため流れ作業(リアルタイム)での適用に合っています。

 重複削減も工夫はされていますが、主データへの適用に関して決定的と思える技術はまだないというのが正直な感想です。 少々細かい話になりますが、ご興味のある方のために記載しておきます。 例えば、比較を短時間に行うためにインデックスをメモリー上に持つと言う方法がありますが、インデックスは実データではなく計算(通常はハッシュ関数)により作られたものであるため、理論上は異なるデータが同じインデックスとなる可能性があります。 関数を複雑にすることでこの可能性を下げることができますが、関数処理のオーバーヘッドが増したり、インデックスのサイズが大きくなって扱えるデータ量(あるいはキャッシュのみで扱えるデータ量)が制限されるあるいは大きなキャッシュが必要(コスト面で不利)になってしまうことになり、また計算である以上確率は小さくなっても理論上ゼロにはならないという問題も残ります。 
そこで、最終的に実データとの比較を行う製品もありますが、実データ比較方式の場合も主データに対する適用に踏み切るには、データを格納する部分のパフォーマンスに気をつける必要があることから、コストと効果のバランスなど現時点ではバックアップ、アーカイブといった非活動データへの適用のようにはお勧めではないと考えています。

 リアルタイム(インライン)ではなく、ポストプロセスでバックグラウンド処理により定期的に重複削減処理を行うという方式であれば主データへの適用も可能とは考えられますが、一旦データ量はそのままの通常の書込みを行った後の処理となることや、バックグラウンド処理への考慮などの運用的な検討が必要なことなどを主な理由に、一般には導入に際しての抵抗がある、言い換えると多少面倒に感じてしまうというのが実情です。 しかし、適切なサイジングや運用管理により適用可能な範囲は少なくないと考えていますし、運用面の課題を解決するような仕組みにより状況が一変する可能性もあるとは思っています。

リアルタイム圧縮に関しては、次回コメントしたいと思います。

Comment(0)