システム監視ってなに?目的やメリット、注意点を紹介!
こんにちは。クレスコ・デジタルテクノローズのK・Fです。
セキュリティエンジニア歴は3年ほどになります。
近年のIT化により、多くの企業が様々なシステムを利用している時代です。
そうしたシステムを安定して稼働させるには、適切なシステム監視を行い問題が生じた際に
いち早く発見して対応できるようにする必要があります。
私は監視に関する業務に携わる中で日々勉強しておりますので、学んできたことをここで紹介できればと思います。
■あわせて読まれている資料:
対応事例やセキュリティサービス一覧を掲載!
→セキュリティテクノロジーサービス
目次[非表示]
- 1.システム監視とは?
- 2.システム監視を行う目的・メリット
- 3.監視の種類について
- 3.1.インフラ監視について
- 3.2.サービス監視について
- 4.システム監視を行う際の注意点
- 5.まとめ
- 6.引用元
システム監視とは?
システム監視とは、システムが提供するサービスやインフラ基盤の問題点をいち早く発見するために、システム稼働状況を定期的に確認することです。
システム監視は基本的に監視ツールや監視システムを用いて行われており、システム障害の発生やリソース不足を素早く検知し、システム管理者に通知をしています。
多くの企業でシステムがビジネスの推進・管理・業務改善・効率化などと結びついている今、システムの稼働がストップしてしまうと、利益損失や信頼度低下につながる恐れがあります。
システム監視を行い予兆・兆候を把握することは障害になる前に対処したり、また障害が発生しても迅速に対応し被害を最小限に食い止めたりするために重要です。
今の業務では、約140システム、約2,350の仮想マシンが稼働中のため、統合監視マネージャと子マネージャ数台による多段構成を採用しており、子マネージャは管理対象エージェントサーバ台数とシステム種別でグループ分けされています。
子マネージャによるサーバの監視結果を統合監視マネージャにsyslog転送することで、オペレータは対応が必要なメッセージだけを確認することができます。
システム監視を行う目的・メリット
システム監視は、「障害の予防」「障害が発生した場合の影響の軽減」を目的としており、
システム監視を行うことで以下のようなメリットを得ることができます。
① 大規模な通信障害発生の防止
ネットワークやサーバの障害を早期に検出し迅速に対応することで、サービスの中断を最小限
に抑える役割を果たします。
② 夜間や長期休暇でも安定稼働を実現
システム監視は24時間体制で行われ、システムの安定稼働を保つために必要です。
特に夜間や長期休暇中に障害が発生した場合でも早急に対応できるようにします。
③ リソースの過剰使用を防止
リソースの使用状況をモニタリングし、過剰なリソースの使用を防ぐ役割を果たします。
これにより、システムのパフォーマンスの最適化が可能になります。
④ システム管理者の負担軽減
自動化されたアラートを通じて問題を通知し、システム管理者の負担を軽減します。
これにより人的ミスを減らし、効率的な運用を実現します。
システム監視は、システムの健全性を保つために重要な役割を果たしています。
システム監視ツールや監視プロセスを適切に設計・運用することでシステムの信頼性を高める
ことができます。
今の業務では、統合監視マネージャからのエスカレーション時にシステムとシステム管理チー
ムを識別するIDを付与しシステム管理者にメッセージを送信することで、障害が発生したシス
テムを素早く把握できる工夫がされています。
監視の種類について
システム監視の種類は2つ「インフラ監視」「サービス監視」があり、目的や対象となる項目は異なります。
ここではそれぞれの監視の詳細について紹介したいと思います。
インフラ監視について
インフラ監視とは、企業のサーバ機器やネットワーク機器、通信回線、OSなどのITインフラが正常に稼働しているか監視することです。
ITインフラはシステムを動かすために必要なリリースです。特にハードウェアのトラブルは大規模な障害につながりかねません。そのためトラブルが発生しそうなときや実際に発生した際に、管理者への報告やトラブル対応を行うシステム監視業務は非常に重要視されています。
〇インフラ監視の種類
① Ping監視
Ping監視はサーバやネットワークの監視によく使用される監視法です。
ICMP(Internet Control Message Protocol)というプロトコルを用いてPingコマンドを実行し、
対象の機器から応答があるかを継続的にチェックします。
② リソース監視
リソース監視とはサーバのCPUやメモリ、ストレージなどの動作状態を確認することで、
ハードウェアの動作状態や、負荷の状況をチェックします。
アクセス集中による負荷の高い状態やパフォーマンス低下などの兆候を見逃してしまうと、
大規模障害につながりかねません。リソース監視は兆候を事前に察知して障害になる前に対
処したり、障害発生時に原因特定を容易にし、迅速に対応したりするために重要です。
③ ログ監視
ハードウェアやソフトウェアの動作記録であるログを確認し、システムの動作が正常かチェ
ックします。
ログにはトラブルやエラーの発生も記録されているため、定期的にチェックすることで障害
を未然に防ぐことができます。障害発生時に、ログから原因の特定ができることもあります。
サービス監視について
サービス監視とは、サーバ上で動作しているプログラムが正常に動作していて、ユーザーが問題なく利用できているのかといった稼働状況を監視することです。
例えば、サーバ、ソフトウェアやDNS、ロードバランサなどのサービスは、Webサイトの表示・入力などシステムを稼働させる上で不可欠です。
〇サービス監視の種類
① 外形監視
外形監視とは、Webサイトやアプリケーションをネットワークの外からアクセスして管理す
ることで、ユーザー視点でサービスが問題なく利用できるかを監視することです。
定期的な監視を行うことで、ユーザーがストレスを感じずに使用できているか、UIに課題が
ないかなども確認することができ、ユーザビリティの観点からシステム運用をするために欠
かせない活動といえます。
② プロセス監視
プロセス監視におけるプロセスとは、管理対象のサーバ上におけるデータベースやアプリケ
ーションの動作のことで、プロセス監視とは、プロセスの稼働状況によってアプリケーショ
ンが正常かどうか監視することです。
ICTシステムにおいて、24時間365日の稼働が当たり前となった今、システムやネットワー
クがダウンしている時間は、ビジネス上の大きなロスとなるので、システムに障害が起きた
時に問題のあるプロセスを素早く特定するため、プロセス監視を行い常にシステム状況を把
握する必要があります。
今の業務では、上記で紹介した監視機能に加え、
- 指定したURLに対し、httpアクセスを実施、取得した文字列を監視する「HTTP監視」
- 定期的にSQLによる問い合わせを行い、その結果が閾値超過していないかを監視する「SQL監視」
等の監視機能も利用しております。
システム監視を行う際の注意点
システム監視はICTシステムの運用に欠かせない施策ですが、注意したいポイントもいくつかあります。
ここではシステム監視を行う上での注意点を紹介します。
① システム監視を行う人員やコストがかかる
システム監視を自社で行うには、相応のITスキルをもった一定数の人員が必要です。
また異常を察知し、実際のトラブル対応ができる人材を24時間365日配置しなければなりませ
ん。
② マニュアルの整備が欠かせない
システム監視を行うにあたり、ツールの操作方法や障害発生時の対応などをマニュアル化する
必要があります。平常時と障害発生時、2つのケースを想定しマニュアルを作成しておくとよ
いです。
また、マニュアルにはエラーメッセージやログの確認方法、原因分析や復旧、報告の手順など
の作業手順のフローチャートを記載し、過去の対応履歴をまとめておくことが大切です。
まとめ
システム監視について簡単にご紹介いたしましたが、いかがでしたでしょうか。
安定したシステム提供をできるかどうかが企業の信頼性に直結します。障害になる前に対処することももちろん重要ですが、障害発生時の対応スピードがなにより重要といえるでしょう。
この記事が少しでも“システム監視ってなんだろう?”という疑問を持っている方の参考になれば幸いです。
私自身、監視に関する業務に携わって間もないですが、これからも技術力向上を目指し日々学びを深めていきたいと考えております。
最後までお読みいただきありがとうございました。
■サービス資料一覧はこちら↓
引用元
https://biz.techvan.co.jp/tech-is/blog/infra/001177.html
https://smart-stage.jp/column/057/
https://www.itscom.co.jp/forbiz/column/office-environment/9024/