カオスエンジニアリングで可用性が向上し障害検出の時間短縮につながるという調査結果
Gremlin社が公開しているカオスエンジニアリングの年次報告(State of Chaos Engineering)があります。その2021年版に、可用性が高いサービスを提供している事業者はカオスエンジニアリングを使う割合が高いという報告があります。State of Chaos Engineeringを読むには、アカウント登録が必要になります。当該部分のみ見たいという方は、こちらの記事も参考になると思います。カオスエンジニアリングって何?という方向けにこちらの記事も書きました。
以下が可用性とカオスエンジニアリングの関係を示した記事中のグラフです。https://www.gremlin.com/state-of-chaos-engineering/2021/ から引用
一番上のグラフが可用性>99.9%、真ん中が99~99.9%、一番下が<99%です。グラフで色分けされた部分がカオスエンジニアリングの活用の度合いを表していて、一番左がカオスエンジニアリングを試したことがない、ad-hocに試したことがある、四半期に一度、毎月、毎週、で一番右の紫色の部分が毎日かそれ以上の頻度となっています。
細かいレベルでみると、カオスエンジニアリングと可用性の関係には対応がありそうなものとそうでないものがありそうです(たとえば、毎日かそれ以上の頻度で活用している割合が一番大きいのは真ん中の可用性99~99.9%です)。しかし、一度も使ったことがないという左側の色は可用性が上がると減っていくようです。
この結果だけだと因果関係なのか相関関係なのか解釈が難しいところですが、下の質問を見ると因果関係とみることもできそうです。因果関係があるとみるならば、カオスエンジニアリングを採用するサービスは実際に可用性が高いということになります。相関関係とみるならば、可用性の高いサービスを使うような事業者はカオスエンジニアリングのようなプラクティスにも興味をもつということになります。
カオスエンジニアリングの効果を質問の回答が以下です。複数回答可能で、可用性が高まったという回答が47%、復帰までの時間短縮という回答が45%、障害検出という回答が41%で上位3位となっています。https://www.gremlin.com/state-of-chaos-engineering/2021/ から引用
Reportには他の質問内容もあり、どういう環境で使っているかという質問への回答で開発環境で63%、ステージングで50%、実稼働環境で34%となっています。https://www.gremlin.com/state-of-chaos-engineering/2021/ から引用
そのほかにも、読み応えのある内容になっています。ご興味のある方はhttps://www.gremlin.com/state-of-chaos-engineering/2021/ からご覧ください。