現実を直視しましょう。インシデントは高くつくものです、本当に。しかし、本番環境におけるインシデントの高いコストは、必ずしもサービスの低下やネガティブな顧客体験が原因とは限りません。PagerDutyのレスポンスデータによると、インシデント収束までの時間の50%以上は、最初のレスポンダーによる調査と出動段階(私たちは「トリアージ」と呼んでいます)に費やされています。 言い換えると、問題を見極め、解決するのに適役を呼び出す部分です。
上記の統計を考慮すると、インシデントライフサイクルの影の経費は、インシデントを発見したエンジニア、問題に対応し根本原因を特定したオンコールエンジニア、その他インシデントライフサイクルに動員されるあらゆる分野の専門家の時間であることは明らかです。さらに、対応プロセス全体に手作業が加わると、コストがかさみます。非常に高くつきます。
実際のところ、開発組織の時間は、ビジネスの利益と同じくらい貴重で重要です。そして、サービスやアプリケーションの開発が複雑化するにつれて、「削減された時間」は、追跡、定量化、および継続的な改善を行うための、より重要な指標となります。インシデント対応プロセスのさまざまな側面を自動化する方法を見つけることは、チームの時間を節約し、全体的な効率を高めるのに役立ちます。どうすればいいのでしょうか?PagerDuty® Automation Actions(旧PagerDuty Rundeck Actions)の出番です。
PagerDuty® Automation Actions
PagerDuty® Automation Actionsアドオンは、第一線のレスポンダーをPagerDuty内の修正オートメーションに直接接続します。インシデントが発生したときに専門家にエスカレーションする代わりに、レスポンダーは安全に委譲された自動化機能を使用してインシデントのトリアージと解決を自分で行うことができます。その結果、チームはMTTRを短縮し、専門家の業務中断を減らし、インシデントを迅速に診断して修復することができます。
PagerDuty® Automation Actionsは、自動化された診断と修復をインシデント対応ワークフローに接続します。Automated Diagnosticsとは、インシデント発生時にレスポンダーが自動的に呼び出すことができる、本番サービス用のアクションのセットです。専門家にエスカレーションして一般的なテストを手動で実行させるのではなく、レスポンダーはPagerDutyから安全かつ確実にこの自動診断を実行し、インシデントタイムラインにリアルタイムで返されるレスポンスを確認することができます。
サービスの再起動や診断など、指定されたアクションを実行することができます。
これらの診断テストにより、レスポンダーは、大人数を巻き込んだり、一般的なレスポンダーの階層をエスカレーションすることなく、より効率的に適切な専門家にインシデントをエスカレーションして解決できます。専門家は、これらの一般的な診断の結果を見て、すぐに取りかかることができます。
さらに、チームはSlackインスタンスから直接これらのアクションを呼び出してインシデントについて共同作業を行うこともできます。これにより、ターミナルからサービスにアクセスしたり、ウインドウを切り替える必要がなくなり、より迅速かつ効率的にインシデントを解決できるようになり、専門家へのエスカレーションも減らすことができます。自動診断の利用が進むと、Event Intelligenceを利用した自動修復やトリガーなどの用途にも利用できるようになります。
PagerDuty® Automation Actionsは、組織の応答プロセスにおける4つの主要な問題領域を解決するのに役立ちます。
- サイロ化された専門知識。 第一線のレスポンダーは、組織の環境内にある全てのアプリケーションやサービスの遺伝子構成を把握しているわけではありません。
- 専門家への絶え間ない割り込み。 レスポンダーは、そのアプリケーションやサービスの専門家と_思われる_エンジニアにエスカレーションを行い、イノベーションを妨げ、インシデント収束を鈍化させています。
- 繰り返し、手動の診断手順。 インシデント発生時の最初のステップは、大体同じです。インシデントの解決に取り組む以前に、これらの同じ手動ステップを踏んでおく必要があります。
- 複雑で広大な本番環境。 どのシステムにアクセスし、どのようなアクションを取るべきかを知るには、時間を要することがあります。さらに、全ての対応者が特定の本番システムにアクセスする権限を持っているとは限らず、エスカレーションプロセスを難しく長引かせることがよくあります。
PagerDuty® Automation Actionsは、上記の課題を次のように解決します。
- チーム間でオートメーションを委譲する。 通常専門家が呼び出す自動化された手順を、第一線のレスポンダーに展開する。
- より少ないエスカレーションで、より早くインシデントを解決する。 一般的なリクエストや作業を自動化することで、エスカレーション先を特定する時間を減らし、より多くの時間を修正に費やすことができます。
- 人手を介した支援・自己回復の自動化を誘発する。 PagerDutyのEvent Orchestrationにより、レスポンダーが呼び出される前に診断アクションを呼び出すことができます。
- セキュリティーを考慮した自動化の安全な発動。 レスポンダーは、インシデントの影響を受けるシステムに対して実行する権限を持つアクションのみを表示します。全てのアクションはログに記録されるため、強固なセキュリティー体制を維持することができます。
以上のことを簡単に箇条書きでまとめると、PagerDuty® Automation Actionsはチームを支援します。
- 応答時間を最大30分短縮、MTTRを最大25%短縮
- エスカレーションされるインシデントの量を削減
- 対応チームに専門知識を共有
- レスポンダーが呼び出される前に、人手を介した支援と自己回復の自動化を開始
- ファイアウォールやVPCの背後にある安全な自動化を誘発
- 手作業に代わる自動化されたアクションを導入
- 事後検証の円滑化、オペレーターの作業軽減のためのインシデント文書化の充実
PagerDutyの自動化ポートフォリオについてもっと知りたい方は、自動化ハブをご覧ください。PagerDuty Automation Actionsについて、また、それがどのようにチームの時間とコストの節約につながるかを知りたい場合は、アカウントマネージャーに連絡するか、今すぐ詳細をご覧ください。
この記事はPagerDuty社のウェブサイトで公開されているものをDigital Stacksが日本語に訳したものです。無断複製を禁じます。原文はこちらです。