Monthly Archives: 7月 2013

Linuxサーバを監視する際に導入しておきたいデフォルトの監視項目

公開:2013年7月16日
種別:監視

RedHatやCentOS、Scientific Linux、Ubuntuなどを監視する必要がある場合、どのような監視項目を選択すれば良いか、悩まれるケースもあるかと思います。

もちろん、該当OSでどのようなアプリケーション/サービスを動かす必要があるのかによって、必要となる監視項目は決まります。

ですが、OSの観点で導入しておくべき監視項目もあると思いますので、今回は「デフォルトで導入しておきたい監視項目」という観点で、ピックアップさせていただきます。

死活監視(Ping監視)

OSが生きているのか死んでいるのかを監視する項目として、ICMPでの死活監視(Ping監視の事)を行う事はとても多いです。

 

リソース監視

OSが使っている様々なリソースを監視して、パフォーマンス状況やキャパシティ状況などを把握するケースも多いです。

 

CPU

リソース監視の該当リソースとしては、まずCPUがあります。CPUの監視項目は非常に多くありますが、CPU稼働率(もしくは、CPUアイドル率)と、CPU負荷(ロードアベレージ)を監視しておくと、該当OSにおけるCPU状況が把握できます。

 

メモリ

リソース監視の該当リソースとしては、メモリも重要です。メモリ使用率については、Linuxの場合は把握が難しい場合がありますが、重要な項目となります。スワップメモリの使用率も重要です。スワップ領域が使われだすとパフォーマンスが落ちるので、状況を把握できる状態にしておきます。

 

ディスク

リソース監視の該当リソースとしては、ディスクも該当します。ディスク領域の使用率を監視しておき、常に一定以上の空き領域を確保しておくなどの対策を取る事も必要です。

 

プロセス監視

OS上で稼働させている様々なプロセスを監視しておく事もお勧めします。ただし、プロセス監視は状況によってはアテに出来ない場合もあります。デッドプロセスが残っているケースや、スレッドアプリの場合などは、プロセス監視に大きな意味を持たせる事が出来ない場合もあります。そういった場合は、後述する「サービス監視」や「ログ監視」などでカバーできるケースもあります。

サービス監視

OS上で稼働しているプロセスが提供しているサービスが使える状態である事を監視する「サービス監視」は、死活監視と同じようにとても重要です。クライアントからの要求に対して、サービスとして正常な応答が出来ていれば、最低限サービス提供できていると判断できるケースが多い為です。WebサーバーであればHTTP応答が正常に返ってくる事を監視する、などが該当します。

ログ監視

稼働しているアプリケーションプロセスなどが蓄積しているテキストログなどを監視する事によって、アプリケーションのエラーなどを検知する事が可能になります。エラーと判断できるキーワードがテキストログに出現しないかどうかを監視する形になります。

 

もちろん、ここまで挙げた監視項目以外にも多くの監視すべき項目はあるかと思います。また、考え方次第ですので、Ping監視だけを導入したり、WebサーバであればHTTP応答監視だけを導入する、といったケースもあるかと思います。

ですが、ここでは「デフォルトで導入しておきたい監視項目」としてピックアップさせていただきました。

結局は、該当OSの役割やお客様側の考え方によりますが、バランスの良い、運用しやすい監視項目を導入する事が一番良いと思います。

公開:2013年7月16日
種別:監視

システム監視の重要性

公開:2013年7月10日
種別:Work
タグ:

ややもすると、システム監視(ネットワーク監視、サーバ監視、アプリケーション監視など)の重要度は低く考えられがちだと思います。

通常システムは動いていますので「システムは動いて当たり前」と考えるのは、至極自然な考えです。

しかし、長い運用フェーズでは予期せぬ障害は高い確率で発生します。ハード障害、ソフト障害、ネットワーク障害など多くの障害要素が考えられます。

では、SLA99.9999%をうたっているクラウドサービスを使えば、利用者側としてシステム監視は必要ないか、というと、そうでもないです。

人的ミス(設定間違いや不備など)、予期せぬトラフィック増から来るキャパシティ不足、パフォーマンス悪化から来るサービス停止なども考えられます。また、SLAに準拠しているかどうかを第3者の立場で確認できる状態にしておく事も非常に重要です。

「うちの会社は、止まってもいいシステムしかない。」という場合は(かなり稀なケースだと思いますが)、システム監視は不要だと思います。ですが、ほとんどの場合はそうではないはずです。

様々な障害リスクを回避し、システム運用をプロアクティブに行う為には、障害をいち早く検知する事や、必要に応じてパフォーマンス状況を把握し、問題になりそうな事象に対して事前に対策を打つ為の情報を得る事が重要になります。

「でも、システム監視に多大なコストは当てられない!」というケースは実際にあると思います。

「システム監視って言っても良く分からない。」というケースもあると思います。

このようなケースに対しての解決策として、システム監視サービス を提案していきたい次第です。

システム監視サービス

障害があった時に気が付ける仕組み」「システム状況について、事前に予測を立てられる仕組み」を安価に導入できるサービスを用意しておりますので、ぜひご活用ください。