第三者機関が実施するベンチマーク結果の信憑性とは如何に?
よく「うちの製品はXXよりもx倍の性能が出ます!」とか「うちの製品は1台でxx万IOPSを発揮します!」とか、はたまた「うちの製品はデータを1/10まで削減します!」いう話をよく聞きます。でも、この性能というのを本当に信じて良いものなのでしょうか?
ベンチマークのツールは世の中に多く存在します。ものによっては特殊な環境でのみ性能を発揮できるように仕組まれたもの、また実際の環境では起き得ないような挙動をするものもあり、それのようなベンチマークが出した結果をそのまま鵜呑みにするのは若干不安があります。では、自分が求める性能を見合ったコストで提供できる製品を見つけるにはどうすればよいのでしょうか?
一番確実なのは、検証機を借りて実環境と同じもしくは近い環境に置いて、実環境のアプリケーションがどれだけの性能を出せるかをテストすることです。これをPoC(Proof of Concept)と呼びます。
概念実証(がいねんじっしょう、英: Proof of concept、ポック、ピーオーシー)は、新たな概念やアイデアの実現可能性を示すために、簡単かつ不完全な実現化(または概要)を行うこと。あるいは、原理のデモンストレーションによって、ある概念や理論の実用化が可能であることを示すこと。
『フリー百科事典 ウィキペディア日本語版』。2018年7月6日 (金)17:00 UTC、URL: http://ja.wikipedia.org
PoCを行うのは時間も工数も掛かりますが、エンタープライズのシステムを担わせるわけですから、実運用に入ってから問題を起こさないためにも、できるだけ実施していただきたいです。そして、実際の性能や効果を試した上で、システムの設計やサイジングの見直しをすると、過剰な投資をすることもなくなります。
ただ「時間がない!」とか「実環境には入れられない」とか「テストデータを用意することができない」とか「置き場所がない」など、PoCをやりたくてもできないということもありますね。そんなときはどうすればよいでしょうか?
そんなときの指針として、第三者機関によるベンチマークレポートがあります。米国にはそのような専門機関がいくつかあり、テスト環境、データ、ベンチマークツールなどを資格かつ公平に評価することを生業にしています。そして、ベンチマーク結果の報告書は、その正確性を別の機関で監査を行い、その後Webで公開することでだれでも閲覧することができるようになっています。
ここでひとつ、仮想マシンをどれだけ同じ条件の環境で動作させることができるかというベンチマークのレポートをご紹介します。IOmark.orgという検証機関が2017年11月に実施したベンチマークです。これは50台のDell PowerEdgeサーバーと10台のDatirum DVX Data Node、そしてHCIソフトウェアのDatrium DVX Softwareを使って実施されました。複数の仮想マシンでさまざまなエンタープライズアプリケーションを動かすという検証を行っています。
そして、この検証では8,000台の仮想マシンが稼働したという結果が出ました。この数値がどのようなものかというと、それまでの最高記録がIBM V9000 AFAというオールフラッシュストレージを使ったもので、1,600台であったそうです。また、HCI比較でいえば、それまでの最高記録はVMware VSANでIntel Optane SSDで検証したものですが、800台であったそうです。(すべてのIOmarkの結果はここで参照してください)
なお、IBM V9000ベンチマークでは、RAID 5で検証しましたが、重複排除と圧縮は掛けていない設定です。VSANのベンチマークでは、Intel Optane SSDと1FT(RAID5相当)保護のみを使用していました。それに対して、DatriumはN + 2(RAID6相当)のイレージャーコーディングに加え、重複排除、圧縮、暗号化を掛けた状態で行った結果です。それ以外の条件については、サーバーやストレージのハード性能はできるだけ同等のもので揃えて公平さを保っています。
検証レポートの英語版はここで確認できますが、英語だとわかりにくいので参考抄訳を用意しました。もしご興味のある方はご覧ください。
ご参考までにこのベンチマークで使われたサーバーは1世代前のE5-2697v4 Intel Broadwell CPUと4 x 1.92 TB Samsung SSD(PM863a)を使用するDell C6320で、各サーバーはVMware vSphereハイパーバイザーを実行していましたが、RedHat Virtualization(RHEV)でも同じ結果が得られたそうです。
ベンチマークの環境は得てして大規模にすることが多く、これだけ大きな環境だとあまり参考にならないという見解もあると思いますが、第三者の正当な見解で他の製品との比較をすることができますので、製品選びの一つの指針として検討してみてはいかがでしょうか?