クラウド時代のサーバー運用入門 > 第1回 クラウド時代の障害対応術 (1) コンピューターの部品をイメージしよう
CTC教育サービスは私が編集支援している株式会社パイプラインの濱田社長のコラム「 クラウド時代のサーバー運用入門 > 第1回 クラウド時代の障害対応術 (1) コンピューターの部品をイメージしよう」を公開しました。
濱田さんは善処でお世話になった方で、とても良いコラムを書く方です。今回は障害対応について書いていただきました。
驚異がある方は是非お読みください!!
###
はじめに
みなさま初めまして。株式会社パイプラインの濱田と申します。このたび、「クラウド時代のサーバー運用入門」というタイトルでコラムを担当させていただくことになりました。サーバー運用担当者の「こんなときどうすればいいんだろう?」の疑問に少しでもお役に立てれば幸いです。
こんな方にお役立ていただきたい
私が想定している読者はこのような方々です。
1.はじめてサーバーエンジニアになった
2.サーバーエンジニアになってクラウドは使いこなせているが、オンプレミスな環境はほとんど経験がない
3.障害対応に強くなりたい
もはやクラウドは当たり前、サーバーレスすら身近になりつつある昨今、どうしてこのテーマを取り上げたのか、その理由をもう少し掘り下げますと、たとえクラウドと言えども必ず物理的なコンピューター(サーバー)の上にサービスが構築されています。しかも、クラウドだから、サーバーレスだからと言って障害と無縁でいられるというわけではなく、時には「ただ復旧を待つしかない」という状況におかれることすらあります。
このコラムを読まれている皆様は、エンジニアの方が多いと思いますので、「エンジニアとして」障害を正常化し、サービスの健全性を保つためのいくつかのアイデア、対応方法についてお伝えしたいと思います。最近では「Site Reliability Engineer (サイト信頼性エンジニア)」と呼ばれることが増えてきましたが、一体どんなミッションなのか、Googleの「What is SRE?」(https://landing.google.com/sre/) より引用してみますと
この続きは以下をご覧ください
https://www.school.ctc-g.co.jp/columns/hamada/hamada01.html