observability16分で読める

AWS主要サービスの監視項目:ALB・EC2・ECS・Aurora・Lambda完全ガイド

ALB、EC2、ECS、Aurora、Lambdaの監視すべきメトリクス、推奨閾値、アラート設定を実践的な表形式でまとめました。本番運用で必須の監視項目を網羅。

#AWS#CloudWatch#監視#ALB#EC2#ECS#Aurora#Lambda

AWS主要サービスの監視項目

本ドキュメントでは、AWSの主要サービス(ALB、EC2、ECS、Aurora、Lambda)における具体的な監視項目を表形式でまとめます。

各メトリクスはGoogleのSREが提唱する「4つのゴールデンシグナル」の観点で分類しています。


ALB(Application Load Balancer)の監視

基本メトリクス

メトリクス名ゴールデンシグナル説明推奨統計推奨閾値データポイント優先度アラート理由
HealthyHostCountサチュレーション正常なターゲット数Minimum< 21分×1/1P0冗長性の喪失、サービス停止リスク
UnHealthyHostCountサチュレーション異常なターゲット数Maximum>= 11分×5/5P1ターゲットの異常、要調査(5分継続で判定)
TargetResponseTimeレイテンシターゲットの応答時間P95, P99P95 > 1秒 or P99 > 3秒1分×3/3P2パフォーマンス劣化
RequestCountトラフィックリクエスト数Sum前週比±50%5分×3/5P2トラフィック異常、攻撃の可能性
HTTPCode_Target_4XX_Countエラーターゲット側の4xxエラーSum> 100件/分 or エラー率 > 5%1分×2/3P2アプリケーションエラー
HTTPCode_Target_5XX_Countエラーターゲット側の5xxエラーSum> 10件/分 or エラー率 > 1%1分×2/2P1サーバーエラー、要即時対応
HTTPCode_ELB_5XX_CountエラーALB側の5xxエラーSum> 5件/分1分×2/2P0ALBレベルの問題、ターゲット不足
RejectedConnectionCountサチュレーション拒否された接続数Sum> 01分×2/2P1キャパシティ不足
TargetConnectionErrorCountエラーターゲットへの接続エラーSum> 10件/分1分×2/3P1ターゲットの接続問題
ActiveConnectionCountトラフィックアクティブ接続数Sumベースライン200%超5分×3/3P2異常なトラフィック
NewConnectionCountトラフィック新規接続数Sumベースライン300%超5分×3/3P2急激なトラフィック増加
ProcessedBytesトラフィック処理バイト数Sumベースライン200%超5分×3/5P3帯域幅の監視

エラー率の計算(重要)

エラーの絶対数だけでなく、エラー率を監視することが重要です。

計算メトリクスゴールデンシグナル計算式推奨閾値データポイント優先度アラート理由
エラー率(5xx)エラー(HTTPCode_Target_5XX_Count / RequestCount) × 100> 1%1分×2/3P1サーバーエラーの割合が高い
エラー率(5xx)エラー同上> 5%1分×2/2P0重大なエラー率
エラー率(4xx)エラー(HTTPCode_Target_4XX_Count / RequestCount) × 100> 10%1分×3/3P2クライアントエラーの割合が高い

CloudWatch Math式の例:

エラー率 = (m1 / m2) * 100 m1 = HTTPCode_Target_5XX_Count (Sum, 1分) m2 = RequestCount (Sum, 1分)

HealthyHostCount と UnHealthyHostCount の優先度の違い

なぜ HealthyHostCount が P0 で UnHealthyHostCount が P1 なのか?

HealthyHostCount(正常なターゲット数)が最重要な理由

  • サービスの可用性を直接示す: 正常なターゲットが残っていればサービスは継続できる
  • 閾値が明確: 冗長性を失う瞬間(< 2台)が明確に判断できる
  • ゼロになるとサービス停止: HealthyHostCount = 0 は完全なサービス停止を意味する
  • 予防的監視: 残り1台になった時点で即座にアラートを出すことで、完全停止を防ぐ
例: HealthyHostCount = 1(残り1台) → P0アラート → この1台が落ちるとサービス停止するため、最優先で対処が必要

UnHealthyHostCount(異常なターゲット数)が次点の理由

  • サービスは継続中: 異常なターゲットがあっても、正常なターゲットが動いていればサービスは利用可能
  • 徐々に悪化する指標: 1台→2台→3台と徐々に増えていくため、若干の猶予がある
  • 一時的な異常の可能性: デプロイ中の再起動など、一時的に異常になることがある(5分継続で判定)
  • HealthyHostCount で補完: 正常なターゲット数が十分あれば、一部の異常は許容できる
例: HealthyHostCount = 5, UnHealthyHostCount = 1 → サービスは正常稼働中。異常な1台の原因を調査するが、緊急度は低い

両方を監視する理由

シナリオHealthyHostCountUnHealthyHostCount判断
全台正常100正常
1台異常91注意(P1):異常な1台を調査
残り1台のみ19危機(P0):残り1台が落ちるとサービス停止
全台異常010停止(P0):サービス完全停止

結論: HealthyHostCount は「今サービスが動いているか」を示し、UnHealthyHostCount は「何台に問題があるか」を示します。サービスの継続性という観点で、HealthyHostCount の方が決定的に重要です。

SSL/TLS関連

メトリクス名ゴールデンシグナル説明推奨統計推奨閾値データポイント優先度アラート理由
ClientTLSNegotiationErrorCountエラーTLS接続エラーSum> 10件/分1分×3/3P2SSL証明書問題、互換性問題

ターゲットグループ固有メトリクス

ターゲットグループごとに以下を監視:

  • HealthyHostCount(ターゲットグループ別)
  • RequestCountPerTarget(ターゲット間の負荷分散確認)
  • TargetResponseTime(ターゲットグループ別のレイテンシ)

EC2の監視

標準メトリクス(エージェント不要)

メトリクス名ゴールデンシグナル説明推奨統計推奨閾値データポイント優先度アラート理由
StatusCheckFailed_SystemエラーシステムステータスチェックMaximum>= 11分×2/2P0AWSインフラ障害、要リカバリ
StatusCheckFailed_InstanceエラーインスタンスステータスチェックMaximum>= 11分×2/2P0OS障害、要再起動
StatusCheckFailed_AttachedEBSエラーEBSステータスチェックMaximum>= 11分×2/2P1EBS障害、要調査
CPUUtilizationサチュレーションCPU使用率Average> 80%5分×3/3P2リソース逼迫、スケーリング検討
CPUCreditBalanceサチュレーションCPUクレジット残高(T系)Average< 最大の30%5分×3/5P2バースト性能の枯渇リスク
NetworkInトラフィック受信バイト数Sum帯域80%超5分×3/3P3ネットワーク帯域の逼迫
NetworkOutトラフィック送信バイト数Sum帯域80%超5分×3/3P3ネットワーク帯域の逼迫
NetworkPacketsInトラフィック受信パケット数SumPPS上限80%超5分×3/3P3パケット処理能力の逼迫
NetworkPacketsOutトラフィック送信パケット数SumPPS上限80%超5分×3/3P3パケット処理能力の逼迫

EBS関連メトリクス

メトリクス名ゴールデンシグナル説明推奨統計推奨閾値データポイント優先度アラート理由
EBSReadOpsトラフィックEBS読み込みIOPSSumIOPS 85%超5分×3/3P2IOPS上限到達リスク
EBSWriteOpsトラフィックEBS書き込みIOPSSumIOPS 85%超5分×3/3P2IOPS上限到達リスク
EBSReadBytesトラフィックEBS読み込みバイト数Sumスループット80%超5分×3/3P2スループット上限到達リスク
EBSWriteBytesトラフィックEBS書き込みバイト数Sumスループット80%超5分×3/3P2スループット上限到達リスク
EBSIOBalance%サチュレーションEBSバーストIOバランスAverage< 25%5分×3/5P3バースト性能の枯渇
EBSByteBalance%サチュレーションEBSバーストバイトバランスAverage< 25%5分×3/5P3バースト性能の枯渇

CloudWatch Agentによるカスタムメトリクス(OS内部)

メトリクス名ゴールデンシグナル説明推奨統計推奨閾値データポイント優先度アラート理由
mem_used_percentサチュレーションメモリ使用率Average> 80%5分×3/3P2メモリ不足リスク
mem_available_percentサチュレーション利用可能メモリ率Average< 20%1分×3/3P1OOM Killerリスク
swap_used_percentサチュレーションスワップ使用率Average> 50%5分×3/3P2スラッシング、性能劣化
disk_used_percentサチュレーションディスク使用率Maximum> 85%5分×3/5P2ディスク容量不足
disk_inodes_freeサチュレーションinode空き数Minimum< 10%5分×3/5P2inode枯渇リスク
netstat_tcp_establishedトラフィックTCP確立接続数Average> 100005分×3/3P3接続数の異常増加
netstat_tcp_time_waitサチュレーションTIME_WAIT接続数Average> 50005分×3/3P3接続の滞留
processes_runningトラフィック実行中プロセス数Averageベースライン200%超5分×3/3P3プロセス異常増加
processes_blockedサチュレーションブロック中プロセス数Average> 105分×3/3P2I/O待ちの増加

プロセス監視(procstat)

特定のプロセス(nginx, apache, app など)の監視:

メトリクス名ゴールデンシグナル説明推奨統計推奨閾値データポイント優先度
procstat_lookup_pid_countエラープロセス数Minimum< 11分×2/2P0
procstat_cpu_usageサチュレーションプロセスCPU使用率Average> 80%5分×3/3P2
procstat_memory_rssサチュレーションプロセスメモリ使用量Average異常増加5分×3/3P2

ECS(Elastic Container Service)の監視

サービスレベルメトリクス

メトリクス名ゴールデンシグナル説明推奨統計推奨閾値データポイント優先度アラート理由
CPUUtilizationサチュレーションサービスのCPU使用率Average> 80%5分×3/3P2リソース不足、スケーリング検討
MemoryUtilizationサチュレーションサービスのメモリ使用率Average> 80%5分×3/3P2メモリ不足、スケーリング検討
RunningTasksCountサチュレーション実行中のタスク数Average< DesiredCount1分×3/3P1タスク起動失敗、リソース不足
DesiredTaskCountトラフィック希望するタスク数Average--P3スケーリング状況の確認
PendingTasksCountサチュレーション保留中のタスク数Maximum> 05分×5/5P2リソース不足、タスク起動失敗

タスクレベルメトリクス

メトリクス名ゴールデンシグナル説明推奨統計推奨閾値データポイント優先度アラート理由
TaskCPUUtilizationサチュレーションタスクのCPU使用率Maximum> 90%5分×3/3P2CPU制限到達
TaskMemoryUtilizationサチュレーションタスクのメモリ使用率Maximum> 90%1分×3/3P1OOM Killerリスク
TaskSetRunningTasksCountサチュレーション実行中タスク数Minimum< 11分×2/2P0全タスク停止

コンテナレベルメトリクス

メトリクス名ゴールデンシグナル説明推奨統計推奨閾値データポイント優先度アラート理由
ContainerCPUUtilizationサチュレーションコンテナのCPU使用率Average> 80%5分×3/3P2コンテナリソース不足
ContainerMemoryUtilizationサチュレーションコンテナのメモリ使用率Average> 85%5分×3/3P2メモリ不足の兆候

Container Insights(推奨)

Container Insightsを有効化すると、より詳細なメトリクスが取得できます。

メトリクス名ゴールデンシグナル説明推奨統計推奨閾値データポイント優先度アラート理由
CpuUtilizedサチュレーション実際に使用されたCPUユニットAverage定義の80%超5分×3/3P2CPU不足
MemoryUtilizedサチュレーション実際に使用されたメモリ(MB)Average定義の80%超5分×3/3P2メモリ不足
NetworkRxBytesトラフィック受信バイト数Sumベースライン比較5分×3/5P3ネットワーク監視
NetworkTxBytesトラフィック送信バイト数Sumベースライン比較5分×3/5P3ネットワーク監視
StorageReadBytesトラフィックストレージ読み込みSumベースライン比較5分×3/5P3I/O監視
StorageWriteBytesトラフィックストレージ書き込みSumベースライン比較5分×3/5P3I/O監視
TaskCountトラフィックタスク数Average< DesiredCount1分×3/3P1タスク数不足

ECS Fargate固有メトリクス

Fargateを使用している場合の追加メトリクス:

メトリクス名ゴールデンシグナル説明推奨統計推奨閾値データポイント優先度アラート理由
EphemeralStorageUtilizedサチュレーション一時ストレージ使用量(GB)Maximum85%超5分×3/3P2ストレージ容量不足

サービスイベント監視

CloudWatch EventsまたはEventBridgeで以下のイベントを監視:

イベントゴールデンシグナル説明優先度アラート理由
ECS Task State Changeエラータスク状態の変化(STOPPED)P1タスク異常終了の検知
ECS Service Action-サービスのデプロイイベントP3デプロイ監視
ECS Container Instance State Changeエラーコンテナインスタンス状態変化P2インスタンス異常(EC2起動タイプ)

タスク終了理由の監視

タスクが停止した理由を監視することが重要です:

終了理由ゴールデンシグナル説明優先度対応
Essential container exitedエラーアプリケーションエラーP1ログ確認、アプリ修正
OutOfMemoryエラーメモリ不足P1メモリ増量、メモリリーク調査
Task failed ELB health checksエラーヘルスチェック失敗P1アプリケーション調査
Scaling activity initiated-スケーリングによる終了P3正常動作
Service scheduler initiated-サービス更新による終了P3正常動作

ALB統合時の追加監視

ECSサービスがALBと統合されている場合、ALBのメトリクスも併せて監視:

  • TargetResponseTime(ターゲットグループごと)
  • HealthyHostCount / UnHealthyHostCount
  • HTTPCode_Target_5XX_Count

Auto Scaling関連

メトリクスゴールデンシグナル説明推奨閾値優先度
TargetTrackingScalingPolicyサチュレーションスケーリングポリシーの目標値CPUまたはMemoryの70-80%P3
AlarmHigh / AlarmLow-スケールアウト/インの発動頻度頻発する場合は閾値調整P3

ECS起動タイプ別の注意点

EC2起動タイプ

  • コンテナインスタンス(EC2)のメトリクスも監視が必要
  • EC2のCPU/メモリ使用率も確認
  • ECS Agentの正常性確認

Fargate起動タイプ

  • インフラ管理不要だが、タスク定義のリソース設定が重要
  • EphemeralStorageの使用状況監視
  • タスク起動時間(コールドスタート)の監視

Container Insightsの有効化方法

# クラスターレベルで有効化 aws ecs update-cluster-settings \ --cluster <cluster-name> \ --settings name=containerInsights,value=enabled # アカウントレベルでデフォルト有効化 aws ecs put-account-setting \ --name containerInsights \ --value enabled

ログ監視

CloudWatch Logsに出力されるコンテナログも監視:

  • アプリケーションエラーログ
  • 起動/終了時のログ
  • ヘルスチェック失敗のログ
  • OOMエラーのログ

推奨ダッシュボード構成

上段: - RunningTasksCount / DesiredTaskCount(時系列) - CPUUtilization / MemoryUtilization(時系列) - TaskCount(Container Insights) 中段: - HealthyHostCount / UnHealthyHostCount(ALB) - TargetResponseTime(ALB) - HTTPCode_Target_5XX_Count(ALB) 下段: - タスク停止イベント(理由別) - NetworkRxBytes / NetworkTxBytes - EphemeralStorageUtilized(Fargate)

Aurora(RDS)の監視

基本パフォーマンスメトリクス

メトリクス名ゴールデンシグナル説明推奨統計推奨閾値データポイント優先度アラート理由
CPUUtilizationサチュレーションCPU使用率Average> 80%5分×3/3P2リソース不足、スケールアップ検討
DatabaseConnectionsトラフィックDB接続数Averagemax_connections 80%超1分×3/3P1接続枯渇リスク
FreeableMemoryサチュレーション空きメモリAverage< 総メモリの20%5分×3/3P2メモリ不足
SwapUsageサチュレーションスワップ使用量Average> 256 MB5分×3/3P2メモリ不足の兆候
ReadLatencyレイテンシ読み込みレイテンシP95> 20ms5分×3/3P2読み込み性能劣化
WriteLatencyレイテンシ書き込みレイテンシP95> 20ms5分×3/3P2書き込み性能劣化
ReadThroughputトラフィック読み込みスループットAverageベースライン比較5分×3/5P3パターン監視
WriteThroughputトラフィック書き込みスループットAverageベースライン比較5分×3/5P3パターン監視
ReadIOPSトラフィック読み込みIOPSAverageIOPS 85%超5分×3/3P2IOPS上限到達
WriteIOPSトラフィック書き込みIOPSAverageIOPS 85%超5分×3/3P2IOPS上限到達

Aurora固有メトリクス

メトリクス名ゴールデンシグナル説明推奨統計推奨閾値データポイント優先度アラート理由
AuroraReplicaLagレイテンシレプリカラグ(ms)Maximum> 1000ms1分×3/3P2レプリカ遅延、整合性問題
AuroraReplicaLagMaximumレイテンシ最大レプリカラグMaximum> 5000ms1分×2/2P1重大なレプリケーション遅延
BufferCacheHitRatioサチュレーションバッファキャッシュヒット率Average< 95%5分×3/5P3キャッシュ効率低下
CommitLatencyレイテンシコミットレイテンシP95> 50ms5分×3/3P2書き込み性能の問題
CommitThroughputトラフィックコミットスループットAverageベースライン比較5分×3/5P3書き込みパターン監視
DDLLatencyレイテンシDDLレイテンシAverage> 1000ms5分×3/3P3スキーマ変更の遅延
DMLLatencyレイテンシDMLレイテンシP95> 100ms5分×3/3P2クエリ性能の劣化
SelectLatencyレイテンシSELECTレイテンシP95> 50ms5分×3/3P2読み取り性能の劣化
SelectThroughputトラフィックSELECTスループットAverageベースライン比較5分×3/5P3読み取りパターン監視

接続とデッドロック

メトリクス名ゴールデンシグナル説明推奨統計推奨閾値データポイント優先度アラート理由
Deadlocksエラーデッドロック発生回数Sum> 5回/分1分×3/3P2アプリケーションロジック要確認
BlockedTransactionsエラーブロックされたトランザクションAverage> 105分×3/3P2ロック競合
AbortedClientsエラー異常終了したクライアントSum> 10/分1分×3/3P2接続エラー
LoginFailuresエラーログイン失敗回数Sum> 10/分1分×3/3P2認証エラー、攻撃可能性

ストレージ

メトリクス名ゴールデンシグナル説明推奨統計推奨閾値データポイント優先度アラート理由
VolumeBytesUsedサチュレーションストレージ使用量Average80%超5分×3/5P3容量不足の予兆
VolumeReadIOPsトラフィックボリューム読み込みIOPSAverage-5分×3/5P3パターン監視
VolumeWriteIOPsトラフィックボリューム書き込みIOPSAverage-5分×3/5P3パターン監視
BackupRetentionPeriodStorageUsedサチュレーションバックアップストレージ使用量Average想定値120%超1時間×3/5P3コスト監視

Performance Insights(推奨)

Performance Insightsを有効化して以下を監視:

  • DBLoad: データベース負荷(Average Active Sessions)
    • 推奨閾値: vCPU数を超える状態が継続
  • Top SQL: 負荷の高いクエリの特定
  • Wait Events: 待機イベントの分析(I/O、ロック、CPU等)

Enhanced Monitoring(推奨)

より詳細なOS レベルのメトリクス:

  • プロセスごとのCPU/メモリ使用率
  • ファイルシステムの詳細
  • ネットワーク統計

Lambdaの監視

基本メトリクス

メトリクス名ゴールデンシグナル説明推奨統計推奨閾値データポイント優先度アラート理由
Invocationsトラフィック呼び出し回数Sum前週比±100%5分×3/5P2トラフィック異常
Errorsエラーエラー回数Sum> 10回/分1分×2/3P1関数エラー、即時対応要
Throttlesエラースロットル回数Sum> 01分×2/2P1同時実行数制限到達
Durationレイテンシ実行時間P95> タイムアウト80%5分×3/3P2タイムアウトリスク
ConcurrentExecutionsサチュレーション同時実行数Maximum予約数80%超1分×3/3P2同時実行数の逼迫
UnreservedConcurrentExecutionsサチュレーション未予約同時実行数Maximum制限80%超1分×2/2P1アカウント制限到達
IteratorAgeレイテンシイテレーター経過時間Maximum> 60000ms1分×3/3P2ストリーム処理遅延
DeadLetterErrorsエラーDLQへの送信エラーSum> 01分×1/1P1DLQ設定ミス

エラー率の計算(重要)

エラーの絶対数だけでなく、エラー率とスロットル率を監視することが重要です。

計算メトリクスゴールデンシグナル計算式推奨閾値データポイント優先度アラート理由
エラー率エラー(Errors / Invocations) × 100> 1%1分×3/3P2関数エラーの割合が高い
エラー率エラー同上> 5%1分×2/2P1重大なエラー率
スロットル率エラー(Throttles / Invocations) × 100> 0.1%1分×2/2P1同時実行数制限の影響

CloudWatch Math式の例:

エラー率 = (m1 / m2) * 100 m1 = Errors (Sum, 1分) m2 = Invocations (Sum, 1分)

非同期実行関連

メトリクス名ゴールデンシグナル説明推奨統計推奨閾値データポイント優先度アラート理由
AsyncEventsReceivedトラフィック受信した非同期イベントSumベースライン比較5分×3/5P3パターン監視
AsyncEventAgeレイテンシ非同期イベントの経過時間Maximum> 300000ms1分×3/3P2イベント処理の遅延
AsyncEventsDroppedエラードロップされた非同期イベントSum> 01分×1/1P0イベントロスト

ストリーム処理(Kinesis/DynamoDB Streams)

メトリクス名ゴールデンシグナル説明推奨統計推奨閾値データポイント優先度アラート理由
IteratorAgeレイテンシ最古レコードの経過時間Maximum> 60000ms1分×3/3P2処理遅延
StreamRecordsTruncatedエラー切り詰められたレコード数Sum> 01分×2/2P2ペイロードサイズ問題

コスト関連メトリクス

メトリクス名ゴールデンシグナル説明推奨統計推奨閾値データポイント優先度アラート理由
Duration × Invocations-課金対象実行時間合計Sum予算80%超1日×1/1P3コストアラート

Lambda Insights(推奨)

Lambda Insightsを有効化して以下を監視:

メトリクス名ゴールデンシグナル説明推奨閾値データポイント優先度
memory_utilizationサチュレーションメモリ使用率> 90%1分×3/3P2
cpu_total_timeサチュレーションCPU時間異常な増加5分×3/3P2
tx_bytes / rx_bytesトラフィックネットワークトラフィックベースライン比較5分×3/5P3
init_durationレイテンシコールドスタート時間> 3000ms5分×3/5P3

アラート設定の推奨構成

P0(Critical)アラート

- Errors > 10回/分 かつ エラー率 > 10% - Throttles > 1回/分 - AsyncEventsDropped > 0 - DeadLetterErrors > 0

P1(High)アラート

- エラー率 > 5% - スロットル率 > 1% - ConcurrentExecutions が制限の80%超 - IteratorAge > 5分(ストリーム処理)

P2(Medium)アラート

- エラー率 > 1% - Duration P95 が タイムアウトの80%超 - AsyncEventAge > 5分 - memory_utilization > 90%

監視ダッシュボードの構成例

ALBダッシュボード

上段: - HealthyHostCount / UnHealthyHostCount(時系列) - RequestCount(時系列) - TargetResponseTime P95/P99(時系列) 中段: - HTTPCode_Target_5XX_Count(時系列) - HTTPCode_ELB_5XX_Count(時系列) - エラー率(計算メトリクス) 下段: - ActiveConnectionCount(時系列) - TargetConnectionErrorCount(時系列) - RejectedConnectionCount(時系列)

EC2ダッシュボード

上段: - CPUUtilization(全インスタンス) - mem_used_percent(全インスタンス) - disk_used_percent(全インスタンス) 中段: - StatusCheckFailed(全インスタンス) - NetworkIn/Out(時系列) - EBS IOPS(時系列) 下段: - プロセス監視(重要プロセスのpid_count) - swap_used_percent - netstat_tcp_established

ECSダッシュボード

上段: - RunningTasksCount / DesiredTaskCount(時系列) - CPUUtilization / MemoryUtilization(サービスレベル) - TaskCount(Container Insights) 中段: - HealthyHostCount / UnHealthyHostCount(ALB統合時) - TargetResponseTime(ALB統合時) - PendingTasksCount(時系列) 下段: - タスク停止イベント(理由別、過去24時間) - NetworkRxBytes / NetworkTxBytes - EphemeralStorageUtilized(Fargate)

Auroraダッシュボード

上段: - CPUUtilization(Writer/Reader別) - DatabaseConnections(Writer/Reader別) - AuroraReplicaLag(各Reader) 中段: - ReadLatency / WriteLatency P95 - SelectLatency / DMLLatency P95 - Deadlocks 下段: - Performance Insights(DBLoad) - BufferCacheHitRatio - VolumeBytesUsed

Lambdaダッシュボード

上段: - Invocations(時系列) - Errors + エラー率(時系列) - Throttles + スロットル率(時系列) 中段: - Duration P50/P95/P99(時系列) - ConcurrentExecutions(時系列) - IteratorAge(ストリーム処理の場合) 下段: - Lambda Insights(memory_utilization) - AsyncEventAge(非同期の場合) - DeadLetterErrors

参考リソース

AWS公式ドキュメント


適切な監視設定で、障害の早期発見とシステムの安定稼働を実現しましょう。

RK

1997年生まれ

ITエンジニア

インフラ・SRE