Strands Evalsで AIエージェントを体系的に評価する — 6つの機能を実機検証Strands Agents SDKの評価フレームワーク Strands Evals の主要機能を実際に動かして検証した。決定的評価からLLM判定、マルチターンシミュレーション、テストケース自動生成まで網羅する。2026年3月19日約12分ai-agents#strands-agents#ai-agents#bedrock+2