オルタナティブ・ブログ > 吉政忠志のベンチャービジネス千里眼 >

IT業界でベンチャービジネスの支援をしている執筆者が日々の活動ログと感じたことを、徒然なるままに書き綴っていきます。

なりたい自分になろう - 明日を生きる戦略 「変われる」エンジニアになろう (2) -異常検知に強くなろう 前編-

»

私が編集支援している人気コラムニスト濱田康貴氏のコラム「なりたい自分になろう - 明日を生きる戦略 「変われる」エンジニアになろう (2) -異常検知に強くなろう 前編-」が京セラグループKCCSキャリアテックで公開されました。興味がある方はご覧ください。

###
こんにちは。株式会社パイプラインの濱田です。
前回はダーウィンの言葉から"「変われる」エンジニアになろう"というテーマを取り上げましたが、今回は日常の業務から"変化を感じる"にスポットを当て、異常検知について取り上げてみたいと思います。

インフラ運用担当にアサインされて最初に、Zabbixなどの監視ツールでグラフを見ることからはじめる方も多いかと思います。また、アラートメールを受信してから対応フローに則って障害対応を行うこともあるでしょう。

はじめて運用監視の業務に就くにあたって、ホストごと落ちていた、特定のサービスが落ちていたなどの障害は想像しやすいと思いますが、CPU負荷やメモリ使用量、ネットワーク流量、ディスク使用率など、監視対象ホストが起動している限り連続して変化する値については、ある値を超える(または下回る)と異常とみなす監視しきい値と呼ばれる指標があります。

もう少しわかりやすく書くと、監視しきい値とは「何をもってして異常とするのか」を決めた数値ということになりますね。この監視しきい値を超えたとき、または正常な範囲に復旧したときにメールやslackなどに通知が飛んでくることもあるかと思いますが、監視グラフの中長期傾向から障害予兆を検知したり、曜日ごとや前年同日との比較で異常を感じ取ったりして運用改善につなげることも重要です。

(この続きは以下をご覧ください)
https://www.kcct.co.jp/careetec/column/2019/hamada/kawareru-engineer2.html

Comment(0)