はじめのGCP⑪Google Associate Cloud Engineer取得までの道のり-その拾壱-

GACE11キャッチ クラウド

今回も、「Google Associate Cloud Engineer」認定取得の勉強におけるアウトプット内容となっています。

将来、「Google Associate Cloud Engineer」認定取得を目指している方が、試験内容の概要を抑えるのにピッタリの内容です。

今回から、監査&ロギングについて2回に分けて説明します。

Operations Suite

Operations Suite
Operations Suite

Operations Suiteは、Google Cloudにおける統合的なシステム管理サービスです。主に、ログデータやモニタリングから、システムの性能や信頼性を測ることができます。

Operations Suiteの主な機能

  • Logging:各種ログを取得、ログの検索・閲覧・フィルタが可能
  • Monitoring:各種指標取得、ヘルスチェック、ダッシュボード、アラート
  • Debugger:本番環境のデバッグ※2023 年 5 月 31 日に非推奨
  • Profiler:プロファイリング、バージョンによる比較
  • Trace:レイテンシー情報の取得、レポーティング
  • Error Reporting:アプリケーションエラーの特定と理解

システムの性能と信頼性を測る4つのシグナル

まずは、システムの性能と信頼性を示す4つのシグナルについて説明します。

  1. レイテンシー
  2. トラフィック
  3. 飽和度
  4. エラー

1.レイテンシー

レイテンシーは、システムの一部が結果を返すまでにかかる時間になります。

<レイテンシー指標>
・ページの読み込みの待ち時間
・スレッド待機中のリクエスト数
・クエリの所要時間
・サービスの応答時間
・トランザクションの実行時間
・初回応答時間

2.トラフィック

トラフィックは、システムに届くリクエスト数の測定値になります。

<トラフィック指標>
・1秒あたりのHTTPリクエスト数
・静的コンテンツと動的コンテンツのリクエスト数
・ネットワークI/O
・同時セッション数
・1秒あたりのトランザクション数
・1秒あたりの取得数
・アクティブリクエスト数
・書き込みオペレーションの回数
・読み取りオペレーションの回数
・アクティブ接続数

3.飽和度

飽和度は、システムがどれだけ限界に近いかになります。

<飽和度指標>
・メモリ使用率
・スレッドプール使用率
・キャッシュ使用率
・ディスク使用率
・CPU使用率
・ディスク割当
・メモリ割当
・利用可能な接続数
・システムのユーザー数

エラー

エラーは、システム障害など各種の問題を検出したイベントになります。

<エラー指標>
・間違った応答や正しくないコンテンツ
・HTTコード400/500の数
・失敗したリクエス数
・例外の数
・スタックトレース数

Cloud Logging

Cloud Logging
Cloud Logging

Cloud Loggingは、Google Cloudのサービスを使用する中で生成されたログを収集し、検索や分析を行うことができるフルマネージドのログ管理サービスです。

Cloud Loggingの主な役割

Cloud Loggingの主な役割は下記4つです。

  1. 収集:GCEやGKEのすべての仮想マシンで、自動でログを収集
  2. エクスポート:ログを、CloudStorageやBigQuery等にエクスポート
  3. 分析:Pub/SubやBigQueryを使用しログデータをリアルタイム分析
  4. 保持:Cloud StorageやBigQueryにログを長期間保持

ロギングの種類

主なログの種類は下記になります。

  • 管理者の監査ログ:管理コンソールや個別のAPIのログ
  • Google Cloudの監査ログ:管理アクティビティのログ
  • Cloud Loggingエージェント:一般的なサードパーティのアプリケーション
  • ネットワークログ:VPCフローログやファイアウォールルールによるログ

Cloud Loggingの機能

  • ログエクスプローラ:ログの中からキーワードに応じて検索・並び替え・分析ができます。また、通知設定を行うことも可能です。
  • リージョンログバケット:収集したログは、ログバケットに保存されます。ログの保管についてカスタマイズとアクセス制限を設定できます。
  • エラーレポート:ログを自動的に分析し、グルーピングします。新しくグルーピングを行った際に、通知を行うこともできます。
  • Cloud Audit Logs:Google Cloud上で行った操作についてログを記録します。不正操作等を追跡するのに役立ちます。
  • ログルーター:ログから必要なログは残して、不要なログは破棄するなどの設定を行うことができます。必要なログだけを保存することで、バケット使用量を削減し、費用を安く抑えることができます。

Cloud Monitoring

Cloud Monitoring
Cloud Monitoring

Cloud Monitoringは、Google Cloudのサービスから指標、イベント等を収集し、保存・閲覧できるサービスです。また、AWSやオンプレミスのサーバーにも対応しています。

Cloud Monitoringの特徴

  • アプリやインフラのパフォーマンスを監視
  • 各サービスのパフォーマンスをグラフ化
  • リソース状況の確認
  • システムに関するリアルタイムの定量データの収集、処理、集計、表示
  • 時系列でログを確認
  • ダッシュボードを構築可能
  • 通知アラート作成

Cloud Monitoringの利点

  • SLOモニタリング:サービスレベル目標(SLO)を設定し、それに違反した時に通知を設定
  • カスタム指標:別途アプリケーションをインストールし、カスタマイズした指標を作成
  • Google Cloud コンソールの統合:Googlc Cloud コンソールに統合
  • Prometheus向けのマネージドサービス:マイクロサービスに特化した運用監視が可能
  • ロギングの統合:ログデータに基づいた指標を作成。アラートの作成も可能
  • ダッシュボード:自分でカスタマイズしたダッシュボードを作成可能
  • 複数のプロジェクトとグループ/クラスタのサポート:カスタマイズした指標スコープを複数のプロジェクトで適用可能
  • アラート:指標が特定の値に達した時に、通知が可能。通知は、メール、SMS、Slack、PagerDuty等が使用可能
  • Opsエージェント:Opsエージェントをインストールすると、詳細な指標とログを収集可能

SLI、SLO、SLA

  • サービスレベル指標(SLI):サービスの品質を測るための指標(例:エラー率やシステムスループット)
  • サービスレベル目標(SLO):各SLIを目標信頼値と結びつけたもの(例:エラー率5%以下)
  • サービスレベル契約(SLA):サービスを提供する者がクライアントと契約するサービス水準(例:目標値:エラー率3%以下)

Opsエージェント

Google Compute EngineのVMにOpsエージェントをインストールすることで、Google Cloudサービスでは取得できない指標やログが収集可能になります。

<取得できる指標>
・CPU使用率
・ディスク使用率
・メモリ使用率
・スワップ使用率
・ネットワーク使用率
・プロセス使用率
・エージェント使用率(LoggingやMonitoringエージェント等)

まとめ

今回は、下記3点について説明を行いました。

  1. Operations Suite
  2. Cloud Logging
  3. Cloud Monitoring

Cloud LoggingやCloud Monitoringは、クラウド環境でシステムを運用する際、必ず使用するサービスです。是非、覚えておいてください!

これからも、Macのシステムエンジニアとして、日々、習得した知識や経験を発信していきますので、是非、ブックマーク登録してくれると嬉しいです!

それでは、次回のブログで!

タイトルとURLをコピーしました