インシデントを迅速に解決するために、協力して問題を診断する
昨年、私たちはPagerDuty Rundeck Actionsをリリースしました。これは、PagerDutyのインシデント対応ワークフローにおいて、レスポンダーを一般的な問題の自動診断と修復に直接つなげるためのPagerDutyアドオン製品です。お客様と協力し、コミュニティーの声に耳を傾けた結果、PagerDuty Rundeck ActionsがPagerDutyのSlackと統合されたことを発表します。
オートメーションとコラボレーションの融合
今回のインテグレーションにより、レスポンダーはSlackチャンネルから直接、自動診断と修復アクションを展開できるようになりました。これにより、ターミナルからサービスにアクセスしてウインドウを切り替える必要がなくなり、より迅速かつ効率的にインシデントを解決し、専門家へのエスカレーションを減せます。
1つの問題に対処するために、2台のモニターに複数のウインドウを表示させる時代は終わりました。インシデントの状況をステークホルダーに伝えるだけでなく、同じウインドウから修復アクションを展開することができます。インシデントが発生すると、レスポンダーはSlackインスタンス内にインシデント専用のチャンネルをすばやく作成し、影響を受けるチームやステークホルダーとコラボレーションし、診断手順を実行し、オートメーションを呼び出してリアルタイムに問題を修復できます。
CollabOpsの実践
第一線のレスポンダーや担当者は、IT部門全体で構築したつながり(具体的にはPagerDuty・Rundeckと統合したアプリケーションやサービス)を活用し、チャットボットを導入してアクションを実行させることができます。問題をエスカレーションして上に受け渡すのではなく、このインテグレーションにより、仕事に適した人材がいる専用チャンネルにインシデントをすぐに投下し、修正に向けて共同作業を行えます。また、この統合は、インシデントが発生すると、そのロジスティクスを積極的にキャプチャーして記録し、文書化プロセスを完全に透明化して、全てのステークホルダーがアクセスできるようにします。
Rundeckアクションの仕組み
PagerDuty Rundeck Actions を使うと、エンジニアは手間がかかり繰り返し行われる診断手順の自動アクションを作成してレスポンダーに委任できるようになり、繰り返し行われるタスクに費やされる時間を削減できます。また、フェイルオーバーなどの一般的な低減アプローチやその他の修復手法の自動化も含まれます。 既知の問題に対するシンプルで繰り返し適用できる修復法も、イベントトリガーを使って人間の介入なしに発動できるので、緊急の問題だったものを解決済みの後処理に変えることができます。PagerDutyで作業するレスポンダーがインシデントの解決を加速できるように、Rundeck ActionsはAutomated Diagnosticsと修復をインシデント対応ワークフローにつなげます。 Automated Diagnosticsは、インシデント発生時にレスポンダーが呼び出せる、本番サービス用の自動化されたアクションのセットです。一般的なテストを手動で実行する専門家にエスカレーションするのではなく、第一レスポンダーはPagerDutyから安全にこの自動化を呼び出すことができ、インシデントタイムラインにリアルタイムで返されるレスポンスを確認できます。
PagerDuty Rundeck Actionsを使用すると、チームは以下のことが可能になります。
- レスポンスタイムを最大30分短縮
- Slack経由でレスポンスチーム全体に専門知識を共有
- レスポンダーが呼び出される前に、人的支援と自己修復の自動化を開始
- ファイアウォールやVPCの内側で安全な自動化を実行
- 手作業に代わる自動化されたアクションを導入
- 円滑なポストモーテムとオペレーター作業軽減のためのインシデントの文書化を充実
Rundeck Actionsがどのように機能するかについてもっと知るには、ナレッジベースをチェックしてください。さらに、アカウントマネージャに連絡するか、デモをリクエストしてください。
この記事はPagerDuty社のウェブサイトで公開されているものをDigital Stacksが日本語に訳したものです。無断複製を禁じます。原文はこちらです。