今回も、「Google Associate Cloud Engineer」認定取得の勉強におけるアウトプット内容となっています。
将来、「Google Associate Cloud Engineer」認定取得を目指している方が、試験内容の概要を抑えるのにピッタリの内容です。
今回から、監査&ロギングについて2回に分けて説明します。
Operations Suite
Operations Suiteは、Google Cloudにおける統合的なシステム管理サービスです。主に、ログデータやモニタリングから、システムの性能や信頼性を測ることができます。
Operations Suiteの主な機能
- Logging:各種ログを取得、ログの検索・閲覧・フィルタが可能
- Monitoring:各種指標取得、ヘルスチェック、ダッシュボード、アラート
- Debugger:本番環境のデバッグ※2023 年 5 月 31 日に非推奨
- Profiler:プロファイリング、バージョンによる比較
- Trace:レイテンシー情報の取得、レポーティング
- Error Reporting:アプリケーションエラーの特定と理解
システムの性能と信頼性を測る4つのシグナル
まずは、システムの性能と信頼性を示す4つのシグナルについて説明します。
- レイテンシー
- トラフィック
- 飽和度
- エラー
1.レイテンシー
レイテンシーは、システムの一部が結果を返すまでにかかる時間になります。
<レイテンシー指標>
・ページの読み込みの待ち時間
・スレッド待機中のリクエスト数
・クエリの所要時間
・サービスの応答時間
・トランザクションの実行時間
・初回応答時間
2.トラフィック
トラフィックは、システムに届くリクエスト数の測定値になります。
<トラフィック指標>
・1秒あたりのHTTPリクエスト数
・静的コンテンツと動的コンテンツのリクエスト数
・ネットワークI/O
・同時セッション数
・1秒あたりのトランザクション数
・1秒あたりの取得数
・アクティブリクエスト数
・書き込みオペレーションの回数
・読み取りオペレーションの回数
・アクティブ接続数
3.飽和度
飽和度は、システムがどれだけ限界に近いかになります。
<飽和度指標>
・メモリ使用率
・スレッドプール使用率
・キャッシュ使用率
・ディスク使用率
・CPU使用率
・ディスク割当
・メモリ割当
・利用可能な接続数
・システムのユーザー数
エラー
エラーは、システム障害など各種の問題を検出したイベントになります。
<エラー指標>
・間違った応答や正しくないコンテンツ
・HTTコード400/500の数
・失敗したリクエス数
・例外の数
・スタックトレース数
Cloud Logging
Cloud Loggingは、Google Cloudのサービスを使用する中で生成されたログを収集し、検索や分析を行うことができるフルマネージドのログ管理サービスです。
Cloud Loggingの主な役割
Cloud Loggingの主な役割は下記4つです。
- 収集:GCEやGKEのすべての仮想マシンで、自動でログを収集
- エクスポート:ログを、CloudStorageやBigQuery等にエクスポート
- 分析:Pub/SubやBigQueryを使用しログデータをリアルタイム分析
- 保持:Cloud StorageやBigQueryにログを長期間保持
ロギングの種類
主なログの種類は下記になります。
- 管理者の監査ログ:管理コンソールや個別のAPIのログ
- Google Cloudの監査ログ:管理アクティビティのログ
- Cloud Loggingエージェント:一般的なサードパーティのアプリケーション
- ネットワークログ:VPCフローログやファイアウォールルールによるログ
Cloud Loggingの機能
- ログエクスプローラ:ログの中からキーワードに応じて検索・並び替え・分析ができます。また、通知設定を行うことも可能です。
- リージョンログバケット:収集したログは、ログバケットに保存されます。ログの保管についてカスタマイズとアクセス制限を設定できます。
- エラーレポート:ログを自動的に分析し、グルーピングします。新しくグルーピングを行った際に、通知を行うこともできます。
- Cloud Audit Logs:Google Cloud上で行った操作についてログを記録します。不正操作等を追跡するのに役立ちます。
- ログルーター:ログから必要なログは残して、不要なログは破棄するなどの設定を行うことができます。必要なログだけを保存することで、バケット使用量を削減し、費用を安く抑えることができます。
Cloud Monitoring
Cloud Monitoringは、Google Cloudのサービスから指標、イベント等を収集し、保存・閲覧できるサービスです。また、AWSやオンプレミスのサーバーにも対応しています。
Cloud Monitoringの特徴
- アプリやインフラのパフォーマンスを監視
- 各サービスのパフォーマンスをグラフ化
- リソース状況の確認
- システムに関するリアルタイムの定量データの収集、処理、集計、表示
- 時系列でログを確認
- ダッシュボードを構築可能
- 通知アラート作成
Cloud Monitoringの利点
- SLOモニタリング:サービスレベル目標(SLO)を設定し、それに違反した時に通知を設定
- カスタム指標:別途アプリケーションをインストールし、カスタマイズした指標を作成
- Google Cloud コンソールの統合:Googlc Cloud コンソールに統合
- Prometheus向けのマネージドサービス:マイクロサービスに特化した運用監視が可能
- ロギングの統合:ログデータに基づいた指標を作成。アラートの作成も可能
- ダッシュボード:自分でカスタマイズしたダッシュボードを作成可能
- 複数のプロジェクトとグループ/クラスタのサポート:カスタマイズした指標スコープを複数のプロジェクトで適用可能
- アラート:指標が特定の値に達した時に、通知が可能。通知は、メール、SMS、Slack、PagerDuty等が使用可能
- Opsエージェント:Opsエージェントをインストールすると、詳細な指標とログを収集可能
SLI、SLO、SLA
- サービスレベル指標(SLI):サービスの品質を測るための指標(例:エラー率やシステムスループット)
- サービスレベル目標(SLO):各SLIを目標信頼値と結びつけたもの(例:エラー率5%以下)
- サービスレベル契約(SLA):サービスを提供する者がクライアントと契約するサービス水準(例:目標値:エラー率3%以下)
Opsエージェント
Google Compute EngineのVMにOpsエージェントをインストールすることで、Google Cloudサービスでは取得できない指標やログが収集可能になります。
<取得できる指標>
・CPU使用率
・ディスク使用率
・メモリ使用率
・スワップ使用率
・ネットワーク使用率
・プロセス使用率
・エージェント使用率(LoggingやMonitoringエージェント等)
まとめ
今回は、下記3点について説明を行いました。
- Operations Suite
- Cloud Logging
- Cloud Monitoring
Cloud LoggingやCloud Monitoringは、クラウド環境でシステムを運用する際、必ず使用するサービスです。是非、覚えておいてください!
これからも、Macのシステムエンジニアとして、日々、習得した知識や経験を発信していきますので、是非、ブックマーク登録してくれると嬉しいです!
それでは、次回のブログで!