Aurora Blue/Green 実践検証 — RDS Proxy 経由の Switchover でダウンタイムはどう変わるか
Blue/Green Switchover に RDS Proxy を組み合わせた場合のダウンタイムを psql で計測。直接接続の26秒・JDBC BG プラグインの0秒と比較し、RDS Proxy の効果と制約を明らかにする。
「blue-green-deployment」タグが付いたコンテンツ一覧
Blue/Green Switchover に RDS Proxy を組み合わせた場合のダウンタイムを psql で計測。直接接続の26秒・JDBC BG プラグインの0秒と比較し、RDS Proxy の効果と制約を明らかにする。
Amazon ECS の NLB 向け Linear / Canary デプロイを実際に構築・計測。NLB 固有の10分遅延が各ステップに累積し、ステップ数がデプロイ時間のボトルネックになることを実測データで確認した。
AWS JDBC Wrapper を 2.6.4 → 3.2.0 にアップグレードし、PostgreSQL と MySQL で Blue/Green Switchover を再検証。MySQL の接続失敗はタイミング依存(0〜1回)であることが判明。3.x 移行の判断基準をまとめる。
Aurora MySQL で Blue/Green Switchover を検証し、PostgreSQL との違いを比較。IN_PROGRESS フェーズが3秒と短い一方、BG プラグインでも0〜1回の接続エラーが発生する可能性がある。HikariCP の旧 Writer 接続問題はエンジン共通。Plain JDBC は復旧後も旧ホストに31秒間接続し続けた。
Blue/Green Switchover 中のダウンタイムを Plain JDBC・HikariCP リトライ・AWS JDBC Driver BG プラグインの3パターンで比較。プラグインは検証した400クエリ中0回の接続失敗。HikariCP は旧 Writer に接続し続ける落とし穴も発見した。
Aurora PostgreSQL のフェイルオーバーと Blue/Green Switchover のダウンタイムを実測比較。フェイルオーバーは12回の接続失敗(2回に分離)、Blue/Green Switchover は約26秒・6回の接続失敗。DNS TTL 60秒の影響も検証した。
Aurora PostgreSQL の Blue/Green Switchover 中、ドキュメントでは AdminShutdown エラーが記載されているが、RDS Proxy 経由では SSL connection has been closed unexpectedly が発生する。エラーハンドリングの設計時に注意が必要。
ECS サービスの再作成なしに、update-service の --deployment-configuration で Linear と Canary を動的に切り替えられることを確認した。
カスタムパラメータグループを使っている Aurora PostgreSQL クラスターでメジャーバージョンアップグレードを伴う Blue/Green デプロイメントを作成すると InvalidParameterCombination で失敗する。Green 用のパラメータグループを明示的に指定する必要がある。
デフォルトパラメータグループのまま create-blue-green-deployment を実行すると SourceClusterNotSupportedFault で失敗する。PostgreSQL は rds.logical_replication = 1、MySQL は binlog_format = ROW を設定し、全インスタンスの再起動が必要。
Blue/Green Switchover 中に全接続が切断された後、HikariCP が DNS キャッシュ経由で旧 Writer に再接続してしまう問題。書き込みワークロードでは read-only transaction エラーが発生する。PostgreSQL でも MySQL でも同じ挙動。