RedHatやCentOS、Scientific Linux、Ubuntuなどを監視する必要がある場合、どのような監視項目を選択すれば良いか、悩まれるケースもあるかと思います。
もちろん、該当OSでどのようなアプリケーション/サービスを動かす必要があるのかによって、必要となる監視項目は決まります。
ですが、OSの観点で導入しておくべき監視項目もあると思いますので、今回は「デフォルトで導入しておきたい監視項目」という観点で、ピックアップさせていただきます。
死活監視(Ping監視)
OSが生きているのか死んでいるのかを監視する項目として、ICMPでの死活監視(Ping監視の事)を行う事はとても多いです。
リソース監視
OSが使っている様々なリソースを監視して、パフォーマンス状況やキャパシティ状況などを把握するケースも多いです。
CPU
リソース監視の該当リソースとしては、まずCPUがあります。CPUの監視項目は非常に多くありますが、CPU稼働率(もしくは、CPUアイドル率)と、CPU負荷(ロードアベレージ)を監視しておくと、該当OSにおけるCPU状況が把握できます。
メモリ
リソース監視の該当リソースとしては、メモリも重要です。メモリ使用率については、Linuxの場合は把握が難しい場合がありますが、重要な項目となります。スワップメモリの使用率も重要です。スワップ領域が使われだすとパフォーマンスが落ちるので、状況を把握できる状態にしておきます。
ディスク
リソース監視の該当リソースとしては、ディスクも該当します。ディスク領域の使用率を監視しておき、常に一定以上の空き領域を確保しておくなどの対策を取る事も必要です。
プロセス監視
OS上で稼働させている様々なプロセスを監視しておく事もお勧めします。ただし、プロセス監視は状況によってはアテに出来ない場合もあります。デッドプロセスが残っているケースや、スレッドアプリの場合などは、プロセス監視に大きな意味を持たせる事が出来ない場合もあります。そういった場合は、後述する「サービス監視」や「ログ監視」などでカバーできるケースもあります。
サービス監視
OS上で稼働しているプロセスが提供しているサービスが使える状態である事を監視する「サービス監視」は、死活監視と同じようにとても重要です。クライアントからの要求に対して、サービスとして正常な応答が出来ていれば、最低限サービス提供できていると判断できるケースが多い為です。WebサーバーであればHTTP応答が正常に返ってくる事を監視する、などが該当します。
ログ監視
稼働しているアプリケーションプロセスなどが蓄積しているテキストログなどを監視する事によって、アプリケーションのエラーなどを検知する事が可能になります。エラーと判断できるキーワードがテキストログに出現しないかどうかを監視する形になります。
もちろん、ここまで挙げた監視項目以外にも多くの監視すべき項目はあるかと思います。また、考え方次第ですので、Ping監視だけを導入したり、WebサーバであればHTTP応答監視だけを導入する、といったケースもあるかと思います。
ですが、ここでは「デフォルトで導入しておきたい監視項目」としてピックアップさせていただきました。
結局は、該当OSの役割やお客様側の考え方によりますが、バランスの良い、運用しやすい監視項目を導入する事が一番良いと思います。