Zabbixでサーバ監視
勤務先では、自社でネットワーク製品の開発販売をしているからには、自分たちでサーバやネットワーク環境の構築・運用もある程度できるようになっている必要があるということで、基本的に自社内にサーバを設置し、運用しています。自社製品も真っ先に自社で本番運用し、問題があれば自分たちが痛い目にあう(?)ことで、品質上でも役立てています。が、その割にサーバの監視はあまりまじめにしていない状態でした。
回線事業者などでたくさん使われているProDHCPにもあまり統計情報を扱うような機能はなく、多くの運用現場ではログなどから統計情報を収集して管理していただいている感じでしたが、さすがにそのくらいは対応しようということになり、性能向上なども終えたので、統計情報対応も行いました。
統計情報はSNMP対応としましたので、Zabbixなどで視覚化することもできます。
勤務先で社内向けに稼働しているProDHCPの統計情報です。クライアント数が少ないので(人数のわりには多いですけど)、あまり面白いグラフではありません。
そこで、こっそりProDHCPサポートサイトでフリーで公開しているDHCP負荷試験ツールのdhcpperfを使って負荷をかけてみました(社内用とはいえ業務で使っているものにこんなことをするのはよろしくありません)。見事にピークが出ました。
見事に平日の日中だけ山ができるのが観察できます。社内ではdefault-lease-timeを1時間とわざと短めにして運用していますので(問題にすぐ気がつくように:もちろん、もっと短くしても全然問題ないのですが)クライアント台数が少なくてもそれなりにDHCPトランザクションが発生します。
こんな項目がSNMPで取得できます。
DHCP以外に、サーバ自体の様子もいろいろと観察できます。
せっかくなのでと、社内のいろいろなサーバをZabbixで監視できるようにしておきました。技術好きのメンバーがたくさんいるので、私は何もしなくてもどんどん調べて進めてくれます!