概要
SentryのAIエージェント「Seer」が、自身のコードに含まれるサーキットブレーカーの設計ミスによるEUリージョンの全停止を自ら分析・特定し、迅速な復旧に貢献した事例の記録。
詳細内容
Sentryが提供するAIバグ解析ツール「Seer」のEUリージョンで発生した大規模障害のポストモーテムです。障害の発端はGoogle CloudのVertex AI(Gemini 2.5 Flash Lite)の一時的な不安定さでしたが、被害を深刻化させたのはSentry側の「レイテンシ最適化ロジック」でした。このロジックはエラーの多いリージョンを自動的にブロックリスト化しますが、予約済みキャパシティを持つ優先リージョンを保護する例外処理がEU版のコードに欠落していたため、全てのリージョンが連鎖的に遮断される事態に陥りました。
特筆すべきは、この複雑な障害の原因分析にSeer自身が活用された点です。Seerは膨大なエラーログからブロックリストの連鎖現象を数秒で特定し、エンジニアが「どのコードを修正すべきか」を判断するための決定的な情報を提供しました。最終的にわずか6行のコード修正で復旧し、インフラ構成とアプリケーションロジックの認識の乖離、および動的なサーキットブレーカー設計における注意点という重要な教訓を残しました。