NEWS
PagerDuty(ページャーデューティー)はAWSの大規模障害を無事に管理し、インターネットの混乱の中でも回復力を発揮

投稿:2025年11月4日   |    更新:2025年11月4日

業界をリードするデジタル運用管理プラットフォームであるPagerDuty(ページャーデューティー)は、AWS US-EAST-1リージョンで発生した大規模な障害を振り返り、インサイトを提供している。この障害はインターネット全体に波及し、SaaS、メッセージング、会議システム、クラウドインフラプロバイダーなど、幅広いサービスに影響を及ぼし、最も堅牢なクラウドシステムであっても障害から逃れることはできず、コアとなるインターネットの障害の影響は広範囲に及ぶ可能性があることを改めて認識させた。インシデントは「発生するかどうか」ではなく「いつ発生するか」の問題であり、規模や投資額に関わらず、どの組織もその影響から逃れることはできない。

PagerDutyのプラットフォームは、システム障害が発生した場合でも、チームが問題を正確に特定し、適切な対応を決定できるようにする。このインシデント発生中も、コアとなるインシデント通知機能は正常に動作し続け、インフラチームとエンジニアリングチームは迅速かつ的確な対応を行い、下流への影響を最小限に抑えました。

インシデントは、PagerDutyが2025年10月20日東部標準時午前3時直前に通知失敗率の上昇を検知したことから始まった。当初は内部認証関連の問題と疑われたが、この可能性はすぐに否定された。状況が明らかになるにつれ、上流のプロバイダーで発生した大規模な事象であることが明らかになった。PagerDuty内部の「インターネット気象」ダッシュボードは、複数のアカウントで通知トラフィックが異常に急増していることを示しており、広範囲に影響が出ていることを示唆していた。これは、ステータスページに表示される前に重大なインターネット障害を特定するための信頼性の高いシグナルだが、根本原因を明らかにするものではない。

インシデントが進行するにつれて、イベント、インシデント、および通知の発生率の増加が観測された。通常、北米のほとんどの地域では夜間はトラフィックが少ないため、イベントおよびインシデントによるトラフィックは安定したベースラインを維持する。しかし、下のグラフが示すように、インシデント発生直後、トラフィックは通常の3倍以上に急増した。広範囲に及ぶ問題が発生していない限り、このような増加は非常に異例だ。

メッセージングおよび会議プラットフォームを含む複数のサードパーティーサービスで、パフォーマンスの低下または完全な停止が報告され始めた。問題の震源地はAWS US-EAST-1であることが明らかになった。リアルタイム運用対応の生命線であるPagerDutyのインシデントパス通知(音声、SMS、モバイルプッシュ)は安定していた。しかし、インシデントによる外部からの影響に対応して経路を調整するための介入が必要だった。

最も大きな影響は、当該リージョンでホストされているPagerDutyの非コアサービスに集中していた。特に、Workflow Automation(旧Catalytic、2022年に買収)ではUIと実行に障害が発生し、Advance Scribe Agentは電話会議に参加できなかった。

最も大きな影響を受けた12時間の間に、PagerDutyプラットフォームでは、1億3,529万件の受信イベント、231万4,163件のインシデント作成、343万件の通知送信が記録された。PagerDutyの重複除外機能とEvent Intelligenceのノイズ低減機能は、オンコールチームが際限なく届くアラートの嵐に圧倒されるのを防ぐ上で、その真価を発揮した。

PagerDutyは、独自の立場から、地域的なクラウド障害発生時にインフラと通信層の運用に劇的な変化が生じたことを観察した。これは、インターネットの脆弱性を浮き彫りにするものだった。この事象における同社のアプローチは、10年以上にわたり構築とリーダーシップを担ってきた同社の理念を反映している。障害の回避ではなく、迅速かつ効果的な対応に重点を置いている。PagerDutyでは、エコシステム全体が不安定な状況下でも、最も重要なワークフローを保護するためのレジリエンス戦略を策定している。

出典:PagerDuty