AWS DevOps Agent 検証 — EKS ナレッジグラフで Kubernetes 障害の根本原因を自動特定する
DevOps Agent の EKS 統合を検証。Learned Topology による Kubernetes オブジェクトの自動検出、アプリ障害とインフラ障害での調査プロセスの違い、audit ログからの操作者特定能力を実測データで評価する。
「eks」タグが付いたコンテンツ一覧
DevOps Agent の EKS 統合を検証。Learned Topology による Kubernetes オブジェクトの自動検出、アプリ障害とインフラ障害での調査プロセスの違い、audit ログからの操作者特定能力を実測データで評価する。
EKS マネージドノードグループの Warm Pool を実機検証。Running 28秒・Stopped 48秒・コールドスタート 62秒のスケールアウト時間差と、reuseOnScaleIn の16分ドレイン待ちを計測。poolState 選択の判断基準を提示する。
Git Directory Generator でディレクトリ構造から dev/staging/prod の Application を自動生成。環境追加はディレクトリ push だけ、個別環境の変更は他に波及しない。ポーリング間隔が長い点に注意。
Capability Role に IAM ポリシーを1つ追加するだけで CodeCommit プライベートリポジトリからデプロイできる。URL typo と権限不足が同じエラーになる点と、権限修正後のリカバリに手動 refresh が推奨される点が落とし穴。
EKS Pod Identity の新機能セッションポリシーを検証。IAM ロールの権限をアソシエーション単位で動的に制限でき、ロール数の爆発を防げる。セッションタグとの排他制約やポリシーサイズ上限など、採用前に知るべきトレードオフも整理した。
アーカイブされたKanikoの代替としてBuildKitをEKS上で検証。rootlessモードの制約、privilegedモードでの構成、ビルド時間25〜52%短縮の実測値を共有する。
Gradio + Cognito OAuthのWeb UIデプロイとHPAによるオートスケーリング設定でワークショップ全構成を完成。4コンポーネントのリソース消費実測値を共有する。
Travel AgentからWeather AgentへのA2A委譲をEKS上で検証。エージェントカードのURL問題とS3セッション履歴によるLLMコンテキスト汚染という2つのハマりどころを解説する。
AWS公式ワークショップ「Agentic AI on EKS」を検証。Strands Agents SDKとMCPによるツール自動発見の仕組みと、KanikoによるEKS上コンテナビルドの実践知見を共有する。
EKS アップグレードを AWS ベストプラクティスに準拠して実施。Cluster Insights、非推奨 API スキャン、PDB による可用性保証まで、事前検証から事後確認までの全工程を記録する。
Neuron DRA ドライバーを EKS にデプロイし、ResourceClaimTemplate による属性ベースのデバイス割り当てを検証。trn1.2xlarge では LNC 動的設定が非対応という落とし穴も確認した。
eksctl の YAML 設定ファイルで ArgoCD Capability を作成し、サンプルアプリのデプロイまでを実施。AWS CLI 版との違いや CloudFormation 経由の挙動を整理する。
EKS Capabilities として提供される ArgoCD Capability を AWS CLI で有効化し、サンプルアプリのデプロイまでを実施。Identity Center のリージョン指定やアクセスポリシーの関連付けなど、実際に踏んだ落とし穴も共有する。
EKS Auto Mode 環境で ClusterNetworkPolicy と ApplicationNetworkPolicy を検証。ドメイン名ベースの Egress フィルタリングにより、特定の外部サービスのみへの通信を許可する多層的なアクセス制御を実現した。
CloudWatch Vended Logs で Auto Mode の4コンポーネント(Compute/Block Storage/Load Balancing/IPAM)のログを収集・分析する手順を検証。Logs Insights クエリでスケールアップからスケールダウンまでの内部動作を時系列で追跡する。
eksctl一発でAuto Modeを有効化したEKSクラスターを作成する手順を解説。ノードグループ管理が不要になるAuto Modeの仕組みと、従来方式との違いを整理する。
EKS Auto Mode で作成したクラスターにマネージドノードグループを追加すると NodeCreationFailure (cni plugin not initialized) で失敗する。vpc-cni、kube-proxy、coredns アドオンの手動インストールで解決する。
ApplicationSet の Git Directory Generator で新ディレクトリを追加した場合、Application の自動生成に約8分かかった。即座に反映したい場合は hard refresh が有効。
IAM ポリシーを修正しても ArgoCD のバックオフにより自動リカバリに時間がかかる。argocd.argoproj.io/refresh=hard アノテーションで即座にリトライできる。
セッションポリシー起因の拒否は「no session policy allows」、IAM ロール起因は「no identity-based policy allows」とエラーメッセージで区別できる。IAM の権限トラブルシューティングが格段にやりやすい。
Strands SDK の A2A サーバーはデフォルトでカードの url に http://0.0.0.0:9000/ を設定する。Helm values で a2a.http_url にサービス FQDN を指定して解決。
A2A 接続先 URL を修正しても、S3 に保存された古い会話履歴から LLM が旧 URL を学習して使い続ける。セッションクリアで解決。
max_user_namespaces=0 のため user namespaces が作れず rootless モードが失敗する。privileged モードで回避。
eksctl create cluster が AlreadyExistsException で失敗する場合、DELETE_FAILED 状態の CloudFormation スタックが残っている可能性がある。手動で削除すれば解決する。
EKS Auto Mode(Karpenter)は空ノードを DisruptionTerminating: Empty で自動ターミネートする。コスト最適化のための正常な挙動。
EKS Cluster Insights は kubelet version skew やアドオン互換性の問題を自動検出する。kubent/pluto と併用するとアップグレード判断が楽になる。
ソースを tar.gz にして S3 にアップロードし、Kaniko Job の --context=s3:// で指定すれば EKS 上で Docker デーモンなしにイメージビルド・ECR push が完結する。
hostname だけだと同一 AZ 内の別ノードに分散するだけ。topology.kubernetes.io/zone を追加して AZ 間分散を保証する。
EKS クラスターを削除しても自動作成された VPC エンドポイントが残り、ENI が in-use のまま VPC 削除が DependencyViolation で失敗する。VPC エンドポイントを明示的に削除し、ENI 解放を待つ。
Identity Center はグローバルに見えるが実体は特定リージョンにある。EKS Capabilities の idcRegion を間違えると AccessDeniedException になる。
EKS Capabilities が自動作成するアクセスエントリにはデプロイ権限がない。associate-access-policy で別途ポリシーを関連付けないと ArgoCD の同期が失敗する。