AWS DevOps Agent 検証 — EventBridge 連携で調査完了を自動通知する
DevOps Agent の EventBridge 連携を検証。Investigation のライフサイクルイベントをキャプチャし、調査サマリを SNS で自動通知するパイプラインを構築した。IAM アクションプレフィックスや Lambda の boto3 バンドルなど、ドキュメントだけでは分からない実装上の注意点も記録する。
すべてのブログ記事一覧
DevOps Agent の EventBridge 連携を検証。Investigation のライフサイクルイベントをキャプチャし、調査サマリを SNS で自動通知するパイプラインを構築した。IAM アクションプレフィックスや Lambda の boto3 バンドルなど、ドキュメントだけでは分からない実装上の注意点も記録する。
DevOps Agent の予防機能に複数パターンのインシデント調査履歴を与え、手動評価を実行した。生成された推奨事項の内容・カテゴリ・エージェント対応スペックの有無を確認し、予防提案の実態を明らかにする。
DevOps Agent のスキルを作成し、同一インシデントシナリオでスキルあり/なしの調査結果を比較した。調査時間が 164秒→64秒に短縮され、報告フォーマットがスキルの指示に従った構造化された形式に変化した。
AWS DevOps Agent を東京リージョンでゼロからセットアップし、インシデント自動調査と Chat 機能を検証した。CLI で66秒でセットアップ完了、Chat は stress-ng の根本原因を正確に特定した。
application.yml の設定変更と ApplicationRunner によるウォームアップで、Spring Boot アプリに Remote Query Cache Plugin を統合。ノードベースと Serverless の両構成で動作確認した。
AWS SDK for Rust の初回リクエスト900ms を DNS・TCP・TLS・API に分離計測。TLS ハンドシェイクが745ms で99%を占めた。接続ウォーミングで合計 Billed Duration を82%削減できる。
1時間の連続負荷でヒット率98.9%を確認。10分アイドル後もタイムアウト再発なし。公式ドキュメントの接続再利用推奨と合わせ、Serverless + ウォームアップが本番で使える条件を整理した。
ノードベース+TLS構成との比較で初回タイムアウトがServerless固有の問題と確定。ウォームアップ接続+5秒待機でCacheMonitorを回復させ、Serverlessの運用メリットを活かせることを実機検証した。
SAMデプロイのハマりポイント、LocalDurableTestRunnerによるローカルテスト、実行履歴の追跡方法を実体験ベースで整理。修飾付きARN必須の罠が最初の関門。
冪等性・DurableExecutionName・並行コールバック・タイムアウト設定を実機検証。「リプレイされる前提で設計する」が全BPの共通原則だと分かった。