Coinbaseが5月のダウンインシデントを振り返る:AWSカスケード障害がアーキテクチャリスクを露呈
Odaily星球日报 Coinbaseは、2026年5月7日に発生した大規模サービス中断インシデントに関する振り返りレポートを公開しました。今回の障害は約8時間継続し、完全な復旧には約12時間を要し、その間、取引、入金、出金、およびほとんどのコアサービスが利用不可または深刻なパフォーマンス低下状態となりました。
Coinbaseによると、障害の原因は、AWS us-east-1リージョンの特定のアベイラビリティゾーン(use1-az4)にあるデータセンターの冷却システムにおいて、複数の冷凍機が同時に故障したことです。これによりラックの熱保護シャットダウンが発生し、EC2インスタンスとEBSボリュームがオフラインになり、複数のインターネットサービスに影響が及びました。
復旧プロセスにおいて、Coinbaseの取引マッチングエンジンは、単一のAWSデータセンターのクラスターアーキテクチャにデプロイされていたため、過半数のノードを失いクォーラム(定足数)を喪失しました。緊急のコード調整と新しいノードグループの再構築を通じて復旧を進め、復旧プロセスの中で段階的に市場取引を再開しました。
さらに、AWSのマネージドKafka(MSK)サービスでコントロールプレーン障害が発生し、パーティションのプライマリノードが自動的に再選出できなくなりました。これにより、価格提示、手数料、および一部の決済・データフローシステムがさらに遮断され、全体的な影響範囲が拡大しました。CoinbaseとAWSのエンジニアリングチームが協力して手動でパーティションを移行した後、システムは徐々に正常に復旧しました。
Coinbaseは、今回のインシデントにより、クロスアベイラビリティゾーンでの自動フェイルオーバー能力とマネージドミドルウェアの災害対策における自社の不足が明らかになったと述べています。同社は、リージョン間のホットスタンバイアーキテクチャをアップグレードし、定期的な障害対応訓練を強化するとともに、Kafkaシステムを2アベイラビリティゾーン構成から3アベイラビリティゾーン構成に移行します。同時に、AWSと協力して根本原因の修正と改善を推進します。
