Blog
ブログ

2022年6月28日  (更新日:2022年10月20日)

Live Call Routingとは?

13年以上にわたってデジタル運用のビジネスに携わってきた私たちが学んだ本質的なことが1つあるとすれば、それは、全ての事業がレジリエンスを構築するために独自のアプローチを持ち、特注の技術スタックとプロセスで実現しているということです。

世界中の多くのPagerDutyのお客様が、Live Call Routing(LCR)を使ってオンコールチームへの直接アクセスを提供し始めています。簡単に言うと、LCRはPagerDutyのアドオン機能です。企業は電話やボイスメールをオンコール中のレスポンダーに動的にルーティングすることで、インシデント対応のためのカスタマーサポートを拡張できるようになります。

LCRは、顧客やスタッフがインシデントを迅速に報告できるようにする、オンコールチームへのホットラインとお考えください。LCRは、このプロセスを自動化し、オンコールチームが迅速かつ効果的にインシデントを受信して解決できるようにすることで、電話によるインシデント運用の複雑さを解消します。全ての着話はオンコールチームのスケジュールに基づいてルーティングされるため、誰でもすぐに適切なレスポンダーに連絡を取ったり、インシデントとなるボイスメールを残したりすることができます。

今日のLive Callに関するビジネス上の課題は何か

従業員がシステム障害について助けを求めている場合でも、顧客がシステム障害を報告している場合でも、人が報告したインシデントは、最初のレスポンダーがITチケットを作った時点で文書化されます。しかし、そのレスポンダーがその問題の専門家(SME)でない場合もあり、その時は適切な助けを得るために、ビジネス全体の複数のチームに問い合わせます。場合によっては、専門家が不在であったり、休暇中で代替要員がいなかったりします。レスポンダーが代わりの専門家に簡単に助けを求められるシステムがないため、解決策を見いだせずにインシデント対応が立ち往生してしまいます。

企業にとって真の課題は、平均受任時間(MTTA)と平均解決時間(MTTR)を短縮することです。従来のITチケットシステムは、インシデントを記録する手段ではありますが、解決までの時間を短縮する手段ではありません。

LCRのメリットにはどのようなものがあるか

LCRは、顧客に最高のサービスを提供することを保証します。例えば、顧客は直通電話でオンコールスタッフとリアルタイムに会話できます。オンコールスケジュールを調べずに済み、MTTAとMTTRを大幅に削減できます。さらに、LCRのおかげで、同じグローバルなオンコールスケジュールとエスカレーションルールを介してお客様の電話を転送し、適切なチームのレスポンダーが問題に対処できるようになります。

レスポンダーが通話中で、かかってきた要求に答えられないとします。この場合、顧客はボイスメールを残すことができ、LCRは自動的に次に対応可能なレスポンダーのためにインシデントを生成します。また、LCRは、PagerDutyを介して簡単に域内や国際電話番号を割り当てられます。世界中の顧客をサポートするためにオンコールチームを設定できるのです。

Live Call Routingの一般的な使用例

お客様インタビューに基づき、Live Call Routingの一般的なユースケースをいくつか挙げました。

重要なパートナーのための専用回線。** ある決済サービスでは、広い地域で80%の収益をあげている重要なパートナーがいます。このパートナーに「VIP」待遇を与え、Live Call Routingを有効にした専用電話番号を提供し、緊急事態の発生時にいつでもサポートチームに電話できるようにしたいと考えています。このパートナーは過去数年間、この番号に1度しか電話しませんでしたが、結果として地域全体のサービス停止や、数百万ドルの損失、数百万人の顧客からの信を失う事態を未然に防げました。 資産にホットライン番号をタグ付け。** カリフォルニア沿岸で、ボートからジェットスキーまで100種類以上の乗り物をレンタルしている事業者があります。各船舶には、レンタルする人が助けを求めるための固有のホットライン番号が設定されています。しかし、これでは、レンタル事業者とそのレスポンダーは多くのレンタル商品にわたって複数のホットライン番号を管理しなければならず、どの電話番号がどの船舶のものか、どのインシデントに対処すべきかをレスポンダーが見分けることが難しくなってしまいます。この企業は、全てのレンタル船舶に対応できる「1つのホットライン番号」でLive Call Routingを有効にし、電話をかけてきた人がリストからサービスを選べるようにしました。インシデントは適切に識別され、適切な専門家に転送されるため、短時間でインシデントに対応できるようになりました。 社内チームへの直通電話。** あるテクノロジー企業には1000人以上の従業員が在籍し、世界中にさまざまな顧客サービスを提供する複数のチームが存在します。あるサービスがダウンした場合、担当チームとそのスケジュールを追跡できません。情報がチーム間で共有されておらず、アクセスもできないためです。Live Call Routingは、複数のサービスの全てのインシデントに対応できる直通電話を設定し、担当の適切なチームに直接電話をつなぐことができます。各チームはインシデントを迅速に解決し、業務を効率化することで、世界中でより良い顧客サービスを提供することができます。

なぜPagerDutyのLive Call Routingか

PagerDutyのLive Call Routingは、インシデントを適切な専門家につなげ、人が介在するインシデントを管理する方法を変革します。コールルーティング、連絡網、グローバル番号割り当てなどの柔軟な機能により、適切なスタッフを待機させるためのよくある管理の複雑さを全て排除し、対応時間を短縮します。

PagerDutyのLCRは24時間365日体制で、顧客から報告されたインシデントが直ちに適切な個人またはチームへ転送され、エスカレーションされることを確認します。最も重要なことは、インシデントの通知と対処を希望する通信手段によって行うことで、インシデントを管理することができるということです。人が呼んだインシデントがボイスメールに入ったとしても、それは自動的にインシデントとなります。

あなたの声をお聞かせください

私たちは常にお客様とお話しし、Live Call Routingを活用するためのお客様のアイデアや使用例について知りたいと考えています。私たちは、質問にお答えし、アイデアを交換し、Live Call Routingがあなたの組織に適しているかを検証できる「Office Hour」を設けました。Calendlyを使って30分の無料セッションに申し込んでください。

Live Call Routingのシニアプロダクトマネージャー、Ben Wiegelmannによる「Always Reach On-Call Responders Immediately with Live Call Routing」を見て、Live Call Routingとその機能についての詳細をご覧ください。一般的な使用例を紹介し、MTTAとMTTRを改善する主な機能を実演しています。 この記事はPagerDuty社のウェブサイトで公開されているものをDigital Stacksが日本語に訳したものです。無断複製を禁じます。原文はこちらです。

続きを読む
ベストプラクティス
2022年6月22日  (更新日:2023年3月1日)

インシデント対応向上のためにサービスオーナーシップを大規模に基準化するには

サービスオーナーシップはDevOpsのベストプラクティスで、チームメンバーが開発ライフサイクルの各段階で、自分たちが提供するソフトウェアのサポートに責任を持つというものです。このレベルのオーナーシップにより、開発チームは顧客と事業と提供価値により密になることができます。

サービスオーナーは、そのサービスの主題の専門家(SME)であり、サービスオーナーシップモデルでは、あらゆる生産上の問題への対応にも責任を負います。このモデルに移行するチームにとって、オンコールになることは大変なことに思えるかもしれません。週末や夜間にラップトップを抱えてインシデントに対応するという恐ろしい話を聞いたことがありませんか?

オンコールは大変なことです。しかし、サービスオーナーシップのようなベストプラクティスは、オンコールシフトに秩序と予測可能性を導入し、理想的には全員の生活の質を向上させることができるのです。

なぜサービスオーナーシップが重要なのか

次のシナリオを想像してみてください。システムのどこかに問題があるためにミーティングに呼ばれましたが、サービスオーナーが決まっていないため、SMEが誰なのか誰も知りません。15分が20分になり、30分になり..。その間、さらに多くの人が電話に飛びつくが、何の進展もなく...。

こんな混沌としたインシデント対応は貴重な時間を浪費し、非効率の典型です。そして、最悪なのは、このようなことが常に絶えないことです。

こんな事態は避けなければなりません。しかし、その前に、なぜ多くのチームが手作業によるインシデント対応に負担を感じ、いつまでも引きずってしまうのか、その理由を考えてみましょう。対応が遅くなる理由を考えてみると、それは、いくつかの非常に重要な質問に答えられないことに集約されます。

どのサービスが影響を受けるのか? サービスの依存関係は? それぞれのサービスのオーナーは誰?

先に挙げた例のようなミーティングは、これらの質問に答えようとするものですが、後手に回ってしまいます。これらの質問に答えることができない限り、チームは立ち止まったまま、インシデントの解決に進めないのです。

テクノロジーのエコシステムが変化し続け、あらゆる規模の企業でより複雑になるにつれて、このような状況はますます一般的になってきています。何百ものサービス、マイクロサービス、分散型オーナーシップによって、何か問題が発生したときにどのように行動を起こせばよいのかが分からなくなっています。

サービスオーナーシップは、組織がより積極的にインシデント対応に取り組むのに役立ちます。とはいえ、これは簡単なことではありません。文化を変えることは難しく、DevOpsとサービスオーナーシップへの移行に何とか成功した組織は、ベストプラクティスに従うことと、サービスオーナーシップを採用するためのプロセスを持つことが、組織全体の定着と規模の拡大に役立つことに同意するはずです。

組織がサービスオーナーシップを採用できれば、サービスオーナーから経営陣のステークホルダー、顧客に至るまで、全ての人がメリットを得られます。サービスオーナーは、必要なときだけ呼び出されます。ステークホルダーは、インシデントによって何が影響を受けるかを把握し、技術チームと協力して影響を軽減できます。また、顧客はサービス中断中も明確な応対を受けられ、以前ほど復旧まで待たされていると感じなくなります。

顧客の期待がかつてないほど高まり、カスタマーエクスペリエンスが重要な鍵を握る世界において、インシデントに対応する人々の生活を向上させながら、組織を競争優位に立たせることができるのです。

実際のところ、サービスとは何なのか

サービスを定義することは、一見したところ意外と難しいものです。サービスをさまざまな方法で分割している組織を見てきましたが、クラウドに展開されているサービスと一致するほど単純なものではありません。組織によっては、分割できない要素の存在も考慮する必要があります。では、どのように物事を管理しやすいピースに分割し、チームが責任を持てるようにすればよいのでしょうか。

PagerDutyでは、サービスを "価値を提供し、チームが完全に所有する機能の個別ピース"と定義しています。別の言い方をすれば、サービスは監視するエンティティーを表し、インシデントを適切なエスカレーションポリシーに関連付ける関連インシデントのコンテナとして機能する、ということです。

つまり、監視し、インシデントを関連付け、特定の担当者を待機させるのであれば、それはサービスだ ということになります。これはより広範な定義であり、従来とは異なるサービスをチームがどのように定義するかについて、より柔軟性を持たせることができます。

しかし、レスポンダーは、問題に対処するための十分な準備をするために、これらの境界線だけでなく、それ以上の情報を知っておく必要があります。ここで、サービスの構成が大きな違いを生むことになります。

サービスが適切に構成されているとはどういうことか

PagerDutyでは、サービスオーナーシップの導入を進めようとしている組織にとって価値があると思われる一連の標準を確立しました。これは私たちがサービスをどう作成するかのガイドラインであり、「良い」とはどんなものかを決めるものです。

この基準はフレキシブルなものでもあります。全サービスが同じように構築されるわけではありませんし、私たちの基準のいくつかは、それぞれの状況には当てはまらないかもしれません。この基準は、お客様がオンコールをより効率的にし、第一線で働くオペレーターの負担を軽減するための出発点として考えてください。

大事なのは、サービスオーナーシップはプロセスであって、ToDoリストでチェックすべきボックスではないということに留意することです。運用の成熟度によっては、基準を設定し、採用するペースは異なるかもしれません。

比較的小規模で、サービスオーナーシップの経験が浅く、クラウドベースのサービスを中心に扱っている場合は、数日で基準を設定し、それに従ってサービスを構成できるかもしれません。ゼロから始める場合は、さらに簡単です。最初のサービスを作るときに基準を適用すれば、以前に設定したサービスに戻って変更する必要がなく、長期的にうまく導入できます。

しかし、数百、数千のサービスを持つ大規模な組織では,この移行は難しいかもしれません.このような組織では、次のような問いかけをすることで、今後の進め方を検討できます。

既存のサービスのうち、今すぐ基準を設定できるものは何か、またその基準は何か。 いくつかの基準は、全てのサービスに適用するのが簡単であると気づくかもしれません。たとえば、サービスには、それが何をするものかを正確に説明する名前が必要です。このように、大多数のサービスが従うべきと分かっている基準があれば、実装を始める適した場所です。このような変更を行うよう、パイロットチームにどのように依頼できるかを考えてみてください。 新しいサービスを作るためのプロセスはどのようなものか。 基準は決まっていても、現在のサービスを全てその基準に合わせるのは大変な仕事です。大規模な組織であれば、全てのサービスを一度に再構成することは通常不可能です。また、サービスを再構成することは、最初に正しく設定するためのプロセスに従うことよりもフラストレーションがたまる可能性があります。 長期的な目標は何か。そのためのスケジュールはどのようなものか。 サービスによっては、これらの基準が必要ないものもあるかもしれません。残りのサービスについては、期限を決めて計画を立て、追加のチームのオンボーディングを開始し、時間をかけて少しずつ変更していきましょう。 どのように依存関係を知るか。 基準を作成し、適用するだけでなく、サービス同士がどのように対応し、互いに影響し合っているかを知ることも重要です。基準を確立する一方で、構成プロセスでこの情報を体系化することをどのように奨励するかについて考えてください。

これらの質問に個別に答えることは、大きな差別化要因にはならないかもしれません。しかし、それらがどのように拡張されるかを考えるとき、インシデントへの対応に大きな違いが生まれます。

インシデント対応にどのように役立つか

インシデント対応では、重要でない仕事に時間や労力を浪費しないことが重要です。インシデントを解決するためにチームが集中する必要があるものに、全てを絞り込む必要があります。

サービスオーナーシップは、対応プロセス全体を通じて、このことを明確にするのに役立ちます。

例えば、サービスの設定が適切であれば、適切な緊急性と最小限のアラートノイズでアラートが表示されるため、最も重要な信号のみに対応し、それに応じて優先順位をつけることができます。また、サービスの所有者を把握できるため、適切な担当者を迅速に配置することができます。成熟度が上がれば、サービスの自動化シーケンスを作成し、サービスを正常な状態に戻すための作業を軽減することも可能になります。

また、サービス上で何が変更されたかを確認できるため、何が問題だったのかを診断するのも簡単です。また、サービスマッピングにより、システムに対する全体的な影響を把握することができます。

問題解決中は、サービスに必要なインテグレーションを迅速に行い、ステークホルダーに情報を提供することができます。インシデントの影響を受けると分かっている関係者だけに連絡を取り、組織内でも影響を最小限にとどめることができます。

最後に、インシデントからよりよく学ぶことができます。サービスのSMEとして、過去の文脈を把握し、その学習結果を対応プロセスにフィードバックすることで、長期的な耐障害性を高めることができます。

サービスオーナーシップを組織全体に拡大すると、こうした改善によって顧客とチームメンバーの両方に劇的な変化がもたらされます。サービスオーナーシップの導入や運用の成熟度を向上させ、そのプロセスをガイドしてくれるパートナーをお探しなら、14日間無料でPagerDutyをお試しください。大規模なサービスオーナーシップの基準化についてもっと知りたい方は、こちらのウェビナーをご覧ください。 この記事はPagerDuty社のウェブサイトで公開されているものをDigital Stacksが日本語に訳したものです。無断複製を禁じます。原文はこちらです。

続きを読む
ベストプラクティス
2022年6月15日  (更新日:2022年9月14日)

PagerDutyが「Best Workplaces in Bay Area」賞を受賞

Great Place to WorkとFortune誌は、PagerDutyを今年のBest Workplaces in Bay Area(ベイエリアで最も働きがいのある会社)の1社に選出しました(当社は、2020年と2021年にも米国で最も働きがいのある会社として認定されています)。この賞は、毎年100万人以上を対象に行われる米国での労働力調査に基づいています。この調査において、PagerDutyの従業員の91%が、私たちは素晴らしい職場であると回答しています。米国に拠点を置く一般的な企業の従業員は57%でした。

この賞は、私たちの素晴らしい人材と特別なカルチャーを反映しているものであり、非常に誇りに思っています。人材主導のカルチャーは、私たちのDNAの中にあります。従業員は業務、キャリア成長、開発に、グローバルチームからのサポートを受けながら自発的に取り組んでいます。私たちは、ユーザーを第一に考え、自由に学び、創造し、リスクを取ることを誇りにしています。

しかし、実際に PagerDutyは何がそんなに特別なのでしょうか?

カルチャーを大切にする会社_**

2020年3月以降、40%以上の成長を遂げました。私たちは「People First」の考え方から外れることなく、私たちのカルチャーの最も強い部分を維持しながら、ビジネスの方向性やお客様のニーズに沿った、私たちの望む未来の状態を実現するために、意図的にカルチャーを進化させることに取り組んできました。

そのために、今年初めにカルチャー・戦略チームを結成しました。カルチャー・戦略チームのミッションは、意図的な傾聴、企業価値と実践の活性化、従業員、お客様、パートナーへの従業員価値提案の伝達を通じて、従業員のライフサイクル全体を通して従業員エンゲージメントを高めることです。

特に従業員が分散している場合、強力で持続可能な企業カルチャーを育むことは、私たちにとって決して「あったらいいな」ではなく、従業員と私たちの目標、目的、ビジョン、ミッション、そしてお互いを結びつけるための会社の必須条件でした。私たちが成長し、規模を拡大し続けるためには、私たちの行動、規範、そして人々を私たちの価値観に根付かせることが不可欠なのです。

従業員体験は、組織、リーダー、従業員、そしてカルチャー・戦略チームの間で共有される責任です。このチームは、傾聴、エンゲージメント、コミュニケーションという重要な柱を通じて、ミッションをサポートし、ビジネス全体に持続的な変化をもたらす主要なプログラムや施策を推進しています。

仕事以外でもデュートニアンをサポートする_**

私たちは皆、リモートワークへの地殻変動を感じていました。共有の場で仕事と家庭を両立させること、子どものバーチャル学習の支援、孤立への対処、燃え尽き症候群などの課題に無縁でいられる人はほぼ皆無だったのです。私たちは、従業員が職場の外で対処し、成長するのを助けるために、福利厚生を充実させる必要があることを理解していました。

既存の従業員支援プログラムに、24時間365日対応の感情サポート、ライブ行動コーチング、カウンセリングなど、新たなメンタルヘルスサービスを追加しました。また、「デュートニアンウェルネスデイ」と「ウェルネスウィーク」を導入し、全社的に有給休暇を取得できるようにし、法定以上にCOVID-19関連の病気や介護のための有給休暇を追加しました。

仕事の内外で「自分らしく」いることは、PagerDutyのコアバリューです。そのため、従業員のメンタルヘルスとワークライフバランスを支援するこれらのサービスは、今後も無期限で継続される予定です。

包摂性、多様性、公平性_**

PagerDutyでは、包摂性、多様性、公平性(ID&E)は、誰もが所属し、成功できる職場であることを約束するための中心的な要素です。また、長期的な成功のためには、私たちがサービスを提供するさまざまなコミュニティーやアイデンティティーを代表する人材とカルチャーを構築することが必要です。

ID&Eは、多様な人材を惹きつけ、開発し、維持するためにも重要です。私たちの従業員リソースグループ(ERG)は、過小評価コミュニティーに、より大きな包摂性と帰属意識を与えています。

社会的インパクト_**

私たちの影響は、会社の枠をはるかに超えて広がっています。PagerDuty.orgを通じて、デュートニアンがさまざまなコミュニティーに変化をもたらす存在として活性化するお手伝いをしています。例えば、次のようなことです。

従業員には毎年20時間のボランティア休暇(VTO)が付与され、ボランティア、投票、特定の政治思想に偏らない参政活動に充てることができます。新入社員や年間5時間以上ボランティアに参加した従業員、そしてGiving Tuesdayには、寄付金クレジットが付与されます。 私たちは毎月、公平と正義を推進し、非営利団体の顧客がその活動を拡大できるよう支援することを目的としたボランティアイベントを開催しています。 インパクトアンバサダーのグローバル協議会を運営し、ボランティア活動、マッチングキャンペーン、ERG助成プログラムを通じて従業員リソースグループ(ERG)と密接に連携しています。 2020年には、デュートニアンの93%がボランティア活動や寄付を行い、110以上の組織で2,860時間以上のボランティア時間を記録し、従業員の寄付や従業員のマッチングプログラムを通じて約196,000ドルを寄付しました。

また、PagerDutyの助成パートナーや顧客がミッションクリティカルな業務に我々のプラットフォームを導入するのを支援するため、技術スキルベースのボランティア活動を開始しました。PagerDutyはTrekMedicsのようなパートナーと協力し、最も恵まれない人々の緊急対応や医療における遅れを取り戻し、成果を向上させる上で極めて重要な役割を担っているのです。

PagerDutyは、適切な瞬間に適切な対応を可能にします。私たちは日々、お客様のためにこれを行い、また従業員のためにも同じことを行うよう努力しています。私たちがベイエリア、そして国際的な事業展開をしている米国や世界で、最も働きやすい職場のひとつと評価されているのも不思議ではありません。

支え合い、人々の業務外の生活にも気を配り、多様性を祝い、本来の自分らしさを発揮することを奨励することで、私たちはきっと長く「働きがいのある会社」であり続けられるでしょう。PagerDutyで働くことに興味はありませんか?私たちは事業全体で採用活動を行っています。 この記事はPagerDuty社のウェブサイトで公開されているものをDigital Stacksが日本語に訳したものです。無断複製を禁じます。原文はこちらです。

続きを読む
ベストプラクティス
2022年6月7日  (更新日:2022年9月14日)

「信頼できる唯一の情報源」。迅速で効率的な顧客サービスのための新ツール

顧客対応チームは、顧客の問題に迅速に対応するためにできる限りのことをしようと手一杯です。PagerDutyの目標は、優れた顧客体験を提供するために必要なツールとアクセスを提供し、これらのチームの負担を軽減することです。

昨年、Salesforce Service Cloudとのインテグレーションを強化し、ユーザーはプラットフォーム内で直接作業できるようになり、コンテキスト切り替えの必要性が減りました。バージョン3.5では、さらに多くの機能を追加し、インシデントをできるだけ迅速かつ効率的に解決しようとするチームのための「信頼できる唯一の情報源」を作成します。

Service CloudのIncident Objects

この新バージョンは、カスタマーサービス、DevOps、ITOpsの各組織を連帯させます。Incident Objectsは、PagerDutyのインシデントとService Cloudのインシデントを双方向に統合し、互いに同期して最新の状態に保つことが可能です。

私たちは、サービスエージェントの生活をより快適にし、チーム間の連携やコラボレーションを促進することを目的としています。サービスエージェントはケースをインシデントにリンクさせ、バックエンドチームはインシデントをケースにリンクさせ、全員が同じ理解でいられるようになりました。エージェントは、組織全体の主要なステークホルダーと連携して作業し、ケースの解決時間を短縮し、SLAを守れるようになりました。

このバージョンには、エージェントがより速く、よりシームレスに作業できるようにするための素晴らしい新機能がいくつかあります。バージョン3.5では、エージェントはエスカレーション、登録者の追加、オープンケースの検索、Salesforceケースと既存のPagerDutyケースのリンクを、全てSalesforce内のPagerDutyコマンドコンソールから迅速かつ容易に行えるようになりました。

CSOpsにおける自動化

カスタマーサービス業務に自動化アクションを導入することで、エージェントが問題を検証し、自動化によって重要な情報を取得し、ケースを迅速に診断して解決することができるようになりました。エージェントは、顧客に影響を与える問題を検証し、Service CloudのPagerDutyアプリから直接、自動化されたアクションを実行することができるようになりました。このサービスは、問題解決に役立つ重要な顧客情報を即座に追加することで、解決時間を短縮し、バックエンドチームの負担を軽減することができます。

また、Automation Actionsは、特に緊急性のない問題やお客様に直接影響を与えない問題について、エンジニアリングチームにエスカレーションされる件数を減らします。

これらの新機能により、PagerDuty for Customer Serviceは、チーム間のコラボレーションとコミュニケーションのサイロ化を解消し、エージェントが顧客と会社全体を支援するために必要なツールを提供し続けることができます。

PagerDuty Customer Service Opsについて詳しくはこちらです。さらに、アカウントマネージャーに連絡するか、14日間のフリートライアルをどうぞ。 この記事はPagerDuty社のウェブサイトで公開されているものをDigital Stacksが日本語に訳したものです。無断複製を禁じます。原文はこちらです。

続きを読む
ベストプラクティス
2022年6月7日  (更新日:2022年9月14日)

インシデント対応の未来は、自動化、フレキシブル、プロアクティブである

お客様が重要なリアルタイムオペレーションのバックボーンとしてPagerDutyを頼りにされていることを私たちは理解しており、ありとあらゆるエンハンスによってインシデント対応が合理化されるようにしたいと考えています。お客様が消火活動に費やす時間を減らし、より多くの時間をイノベーションに費やすことができるよう、どのように支援できるでしょうか。

PagerDutyのバリューの1つは「Champion the Customer」であり、私たちはこれを非常に真剣に受け止めています。機能を構築し改善する際、私たちはお客様に何が起こっているかを常に把握することを心がけています。夜も眠れずにいるのはなぜか。今、何が必要なのか。最近状況は変化したのか。そして、明日の目標を達成するために、私たちはどのようなお手伝いができるのか。

Incident Response製品担当VPであるDan McCallと対談し、PagerDutyの優れたインシデント対応ソリューションのレガシーを構築するための哲学について聞きました。DanのチームがPagerDutyで構築している全ての機能について聞くには、彼のセッション「Incident Response Keynote: Automated, Flexible, Proactive(インシデント対応の基調講演:自動化、フレキシブル、プロアクティブ)」をご覧ください。

Q:お客様と話していて出てきたパターンはあるのでしょうか?何が一番人気なのでしょうか?

お客様が、効率性を最大に高め、労力を最小に留め、普遍的にデータ駆動型になることで大規模なレジリエンスを実現したいと話しているのを何度も聞いています。興味深いのは、DevOpsの旅を始めたばかりでも、何年も続けている場合でも、この傾向にあることです。仕方ないことです。複雑さが増し、インシデントが発生する頻度も高くなっていますが、顧客に与える影響はさまざまですから。ある企業では、適切な人材を適切なタイミングで確保することを目標とし、また別の企業では、進行中のプロセスを合理化し、レスポンダーの健康への影響を抑制するために対応を細かく調整することを優先します。

しかし、私が最もよく耳にするのは、レジリエンスの実現や効率性の向上は、最良の時期に解決すべき困難な課題ですが、「大量退職時代」のために全てが一段と難しくなったということです。実際、当社の最新の顧客調査では、回答者の64%が今年離職率が上昇したと回答しています。もちろん、離職者が増えることでチームに負担がかかることは言うまでもありません。新しい人材を採用し、定着させるにはリソースが必要ですし、人員不足の状態が続くと、さらに手作業が増え、燃え尽きるという悪循環に陥る可能性があります。そして、このような状況は、運用をより健全で成熟した状態にすることをより一層急がせます。

Q:運用の成熟というのは、どういう意味でしょうか?

運用の成熟とは、チームにより良い、より予測可能な体験を提供することであり、離職や燃え尽きの背後にある根本的な問題に対処し、それに先んじることができるよう、プロセスと行動で潜在的な離職をある程度好転させることなのです。

このデジタル運用成熟度モデルは、私たちのプラットフォーム上のチームや組織を調査し、私たちが観察した行動を体系化したものです。

運用の成熟度についてあまりよくご存じないお客様から、「良い」とはどのようなものかとよくご質問を受けます。このモデルにより、組織は運用成熟度を定義し、スペクトラムのどこに位置するかを特定し、改善のためにどこに焦点を当てるべきかを理解することができます。

これをさらに一歩進めて、より具体的なものにするために、当社の製品分析チームは、当社のプラットフォーム上のデータを使って運用成熟度モデルを作成しました。その結果、リアクティブ(反応型)チームはプロアクティブ(予防型)チームよりも常に高い離職率を示しており、前四半期ではその差は2倍以上でした。大退職を背景にこのことを考えると、私たちの製品が、お客様の最も差し迫った業務上の課題に対して大きな変化をもたらすことが、これまで以上に明確になります。Scott BastekとTejere Oteriの講演「リアクティブからプロアクティブへ(そしてその先へ!)」を是非ご覧ください。

Q:お客様からお聞きした内容は、インシデント対応ソリューションの将来のビジョンをどのように形成していますか?

お客様がこのような変革を成し遂げ、運用を成熟させるために、私たちの製品はどのような方向性を持つべきかを考えたとき、私のチームのビジョンは、インシデント対応をもっと充実させることです。

自動化** 無駄や非効率をなくす フレキシブル** 多くのユニークなビジネスニーズに大規模に対応する プロアクティブ** ビジネスの混乱を予測・防止する

そして、お客様がPagerDutyを知り、愛してくださるという核心に忠実であり続けながら、これを実行するつもりなのです。

Q:自動化は、多くの人々にとって多くのことを意味します。自動化されたインシデント対応について考えるとき、それはあなたにとってどのような意味を持つのでしょうか?

私にとっての自動化されたインシデント対応は、人間と機械がよりよく協調することです。これを説明するために、私はよく「ケンタウロスチェス」という概念を考えています。つまり、AIはチェスで人間に勝つことができるが、AIとペアになった人間は純粋なAIに勝つことができる、というものです。

防御の第一線としての自動化は、人間と機械の間で重要なワークロードのバランスを取り、必要なときには人間がよりスマートに働き、そうでないときには負担を軽減することを可能にします。インシデント対応プロセスには、手作業やよく知られたタスクがたくさんあります。私たちの目標は、人間から不必要な負担を取り除くことであり、それによって人間は仕事に集中し、より良い成果を上げることができるようになります。

その一例として、モバイルアプリからAutomated Diagnostics(自動診断)を呼び出すことができます。自動化により、レスポンダーがインシデントにたどり着くまでに、既に診断が実行され、準備が整っています。

自動化とAIは、本来ならチームが行うべきでない作業を代行することができます。繰り返しの多い手作業を減らすことで、従業員はより積極的に仕事に取り組むようになり、燃え尽き症候群や離職率の低下にもつながります。また、イノベーションを起こすための思考と集中の時間が増えるということは、インシデントから学び、プロセスを改善して、望むレジリエンスを構築するために必要な余分なサイクルを確保できるということでもあるのです。

Q:PagerDutyは、いくつかの買収に積極的に投資していますが、これはロードマップとどのように結びついているのでしょうか?

2020年にRundeck、今年初めにCatalyticを買収したことで、本当に強力なパートナーシップを活用し、お客様にとって良い体験を紡ぎ出すことができ、興奮しています。

インシデント対応については、Rundeck社の製品(現在はProcess Automationとして知られています)を活用し、収集、イベントオーケストレーション、モバイル、そしてウェブエクスペリエンスに至るまで、インシデント対応体験にAutomation Actionsを深く組み込むために、Rundeck社の同僚と協力しています。

第一線のレスポンダーは、インシデントのトリアージや修復の際に、同じ診断ステップを繰り返し行うことが多く、価値の高い作業から時間を奪い、専門家はイノベーションを行う代わりに消火活動を続け、MTTRを長引かせます。そのため、インシデント対応のライフサイクルに自動化を活用できるよう、できるだけシンプルで軽快なシステムを構築することが、私たちにとって非常に重要でした。自動診断をさまざまな方法で呼び出すことができるため、チームは暗記や手作業に費やしていた時間を節約できます。そればかりか、レスポンダーがデスクに到着するまでに結果を出すことができます。

Catalyticでは、別のアプローチをとっています。インシデントが発生したとき、組織は通常、実行すべき重要な手順のチェックリストを持っていますが、それらはしばしば手作業で、特に午前2時の熱気の中で思い出すのは困難です。これらの手順を探し、覚えておくことは、対応チームの主な焦点であるインシデントの解決から注意をそらすことになります。私たちは数年前から軽量なレスポンスプレイを提供していますが、お客様からインシデント対応プロセスのステップをより柔軟に自動化する方法を尋ねられたことがあり、このたびIncident Workflowsを導入することになりました。

今年後半には、Catalytic社の買収で得た新しいワークフローエンジンをベースに、軽量なレスポンスプレイを強力なインシデントワークフローにアップグレードする予定です。このワークフローでは、「if-this-that」ロジックを使用して組織的な対応を定義することができ、レスポンダーの追加、ステークホルダーの登録、コンファレンスブリッジの開始など、一般的なインシデントアクションのシーケンスを組織的な対応に簡単に構成することができます。

Incident Workflowsは、インシデントの優先度、ステータス、緊急度など、さまざまなユースケースに応じて組織独自のプロセスを反映できるようカスタマイズすることが可能です。また、インシデントから学んだことをワークフローに反映させ、次回インシデントが発生したときのために、繰り返しの多い平凡なタスクを自動化することも可能です。

Q:今回の発表の中で、お客様が最も喜ぶのはどれでしょうか?

1つだけ選ぶのは難しいので、2つほど紹介させていただきます。まず、レスポンスプレイの未来についてですが、これはお客様にとってうれしいはずです。インシデントワークフローは、パワフルなUIと優先度などに基づくモジュール式の柔軟性により、レスポンスプレイの機能レベルを段階的に向上させることができる、と既に素晴らしいフィードバックをいただいています。個人的には、お客様がインシデントワークフローをどのように活用され、またどのように自分たちのものにされるか、とても楽しみにしています。この「プラットフォーム方式」で構築したことの素晴らしい点のひとつは、重大インシデントでの有用性を紹介していますが、それ以外にもさまざまな方法で使用できることです。Summitでの私のセッションで、Wayfair社のレジリエンスマネージャーであるStephanie Gridley氏が、P1とP5の両方のインシデントに対するこの機能の使い方を詳しく説明しています。

また、Status Update Notification Templates(ステータスの更新通知用テンプレート)など、お客様が長い間望んでいたコアな機能の更新を見ることができて、喜んでいただけたのではないでしょうか。さらに興味深いのは、これらの機能が最終的に相互に影響し合って、さらにクールなことができるようになったときです。機能が互いに関連して機能することで、部分の総和よりも大きな相乗効果が得られるのです。

今年のIncident Response製品ロードマップに何があるか知りたい方は、Danのバーチャル基調講演「Incident Response Keynote: Automated, Flexible, Proactive」をお聞きください。PagerDuty Summitにはまだ間に合います。こちらからお申込みください。 この記事はPagerDuty社のウェブサイトで公開されているものをDigital Stacksが日本語に訳したものです。無断複製を禁じます。原文はこちらです。

続きを読む
ベストプラクティス
2022年6月7日  (更新日:2022年9月14日)    |    ニュース&告知

PagerDuty Operations Cloudであらゆることに備える

あらゆるものがデジタル化された世界で、チームはますます複雑さを増しています。システムやプロセス間の依存関係がますます大きくなり、顧客や従業員の体験はもちろん、収益も危険にさらされています。人間が重要なものを理解したり問題の発生を知ったりするためにはデータの選別と関連付けが不可欠ですが、データが多すぎるのです。

デジタルの複雑性と依存性が高まる中で、あらゆることに対応できるようにするには、手動、硬直的、チケットキュー方式のオペレーションを、顧客体験に焦点を当て、処理スピードと回復力を実現し、機械学習とAIで大幅に自動化して強化された継続的改善システムへと変革する必要があります。そうして初めて、チームはよりプロアクティブな姿勢に移行し、手作業の負担を軽減し、燃え尽き症候群を回避し、集中力を維持できます。

PagerDutyのミッションは、オペレーションに革命を起こし、チームが事後対応や不具合の修正に費やす時間を減らし、新しいイノベーションを提供する時間を増やすとともに、望ましい回復力の目標を達成できるようにすることです。私たちは、このオペレーションの未来が、ソフトウェアの構築と運用を行うデジタルチームだけでなく、組織内の全てのチームにまで広がっていくと考えています。

Summit 2022では、このビジョンに向けたPagerDuty Operations Cloudのいくつかのアップデートを発表しています。

あらゆる場所で自動化を実現

PagerDutyは、お客様の業務の自動化を支援します。PagerDutyを使用することで、組織は緊急のITインシデント、顧客の課題、そして緊急でない日常業務への対応を加速することができます。

本日開催されたPagerDuty Summitにおいて、PagerDutyはカスタムインシデントレスポンスワークフローを作成するための新しい自動化機能、レスポンダーを重要な問題に集中させる方法、自動診断と修復によるMTTRのスピードアップ、顧客サービスエージェントが顧客をプロアクティブにサポートする力の向上を発表しています。

Incident Workflow。 まず、PagerDutyが強力なCatalyticワークフローエンジンを統合し、カスタマイズ可能なIncident Workflowをサポートすることをお知らせします。Incident Workflowは、レスポンダーの追加、ステークホルダーの登録、電話会議ブリッジの開始といった一般的なインシデントアクションのシーケンスを、オーケストレーションされたレスポンスに設定するためのワークフローロジックを定義します。これらのワークフローは、優先度の変更などの一般的なイベントをトリガーとして、自動的に実行されます。PagerDuty Incident Responseの新機能については、サマリーをご覧ください。

Auto-Pause Incident Notifications。 また、レスポンダーは自動化によって不必要な混乱を避けることができます。PagerDuty Event Intelligenceを使用すると、レスポンダーはAuto-Pause Incident Notificationsで一過性のノイズを抑制することができます。この機能は、過去に自動解決してきた一時的なアラートを機械学習を適用して自動的に検出し、一時停止します。このようなタイプのアラートを経験するお客様にとって、この機能はチームの生産性を向上させる上で大きな違いをもたらします。自己修復する類のものに起こされることなく、安眠することだって可能です。リリース後わずか3カ月で、Auto-Pause Incident Notificationsは35万件以上のフラッピングアラートを一時停止させました。

Auto-Pause Incident Notificationsについては、弊社ウェブサイトで詳しく説明しています。 ** どこでもAutomation Actions。** 私たちは、第一レスポンダーを支援する上で、自動化によって一般的な問題の診断と修復を行えるようにしたいとのお客様の声を聞いてきました。昨年、私たちはPagerDutyから直接安全に自動化を呼び出すためのPagerDuty Automation Actionsを導入しました。そして今回、PagerDutyのモバイルアプリとSlackでAutomation Actionsを利用できるようにしました。レスポンダーはどこにいても問題を迅速に解決できるようになり、この自動化の結果を共有することで、インシデントチームとのコラボレーションも容易になりました。

しかし、一般的な診断を実行するためにレスポンダーを待つ必要はないでしょう。Event Orchestrationのユーザーは、最初のレスポンダーがインシデントを認識する前に同じ自動診断をプロアクティブに起動し、より速い初動のために必要な情報を提供できるようになりました。これらの同じトリガーは、既知の問題に対して自己修復を試みることもでき、最も可能性の高い解決法で効果がなかった場合にのみ、人間にメッセージを送ることができます。

最後に、この機能を拡張して、カスタマーサービスチームに自動化を提供できるようにしました。カスタマーサービス担当者は、PagerDuty Customer Service Opsから自動検証テストを呼び出して、顧客の問題がシステムの問題に関連しているかどうかを判断し、顧客の体験に影響を与える可能性のある既知の問題についての情報を積極的に受け取ることができるようになりました。

詳しくは、Automation Actionsの最新情報ブログ記事をご覧ください。

PagerDuty Runbook Automation。 PagerDutyは、最近発表したSaaSサービスPagerDuty Runbook Automationを通じて、お客様が自動診断、修復、日常業務のオーケストレーションをより容易に行えるようにします。PagerDuty Runbook AutomationはPagerDuty Process Automationソフトウェアをベースにしており、クラスターをホストすることなく同じ開発・実行環境にアクセスすることが可能です。そのプラグインにより、チームはインフラをノードとして簡単に組み込むことができ、エンドツーエンドのオーケストレーションされたジョブ定義で自動化を再利用することができます。

インシデント対応、顧客サービス、開発者体験、およびコンプライアンスを高速化するためのビジネスに関連した自動化を、PagerDuty Runbook Automationを使用して作成しましょう。

全ての人と物をつなぐ

現代のデジタル環境では、さまざまなシステムの数が爆発的に増加しています。何が起きていて、何に注意を払う必要があるのかを完全に把握するためには、システムとチームを同期させておくことが肝要です。PagerDuty Operations Cloudは、API、ウェブフック、および650を超えるインテグレーションにより、お客様の技術スタックと統合し、チームがより良く連携してお客様により良い体験を提供できるようサイロを解消します。

ステータスアップデートの通知テンプレート。 PagerDutyに、社内のステークホルダーに最新情報を提供する新しい方法が追加されました。インシデント対応中の社内コミュニケーションを、HTMLテンプレートを使って標準化することができるようになりました。例えば、リッチテキストエディターでレスポンスをカスタマイズし、画像、スクリーンショット、グラフを追加することができます。ステータスアップデートの通知テンプレートについて詳しくはこちらをご覧ください。

PagerDuty for Salesforce Service Cloudの更新情報。 カスタマーサービス担当者は、インシデント発生時に最前線にいるため、暗闇に取り残されるようなことがあってはなりません。そこで、PagerDuty Customer Service Operationsの出番です。

PagerDuty for Customer Service Operationsは、Salesforce Service Cloudとの連携を深めることで、DevOps、ITOps、カスタマーサービスチームとSalesforce Incident Objectsおよびケースとの間にリアルタイムのリンクを作成します。これにより、全てのチームが1つの真実の情報源となるのです。エージェントは、顧客に影響を与える問題を解決するために、チーム間で協力し合うことができるようになりました。PagerDuty Customer Service Operationsのアップデートについて、詳しくはこちらです。 ** CollabOpsのアップデート。** CollabOpsは、多くのチームがリアルタイムで作業やコミュニケーションを行う方法となっています。私たちは、Slackとの統合を単一の接続管理ページで簡素化しました。そしてGoogleは最近、新しいインテグレーションを構築しました。PagerDuty for Google Chatです。PagerDuty for Google Chatの詳細についてはこちらをご覧ください。

スピードと柔軟性を実現する

インシデント対応というと、迅速さとは無縁に感じられることがよくあります。情報を得るためにシステム間を移動したり、通知を手動で確認したり、必要なものを見つけるためにインターフェイスを調べたりする時間は、往々にして無駄になってしまいます。チームが集中できるようにすることで、作業と解決までの時間を短縮できます。だからこそ私たちは、レスポンダーが必要なものを必要な場所で必要なだけ素早く入手できるように設計された機能を優先的に構築し、PagerDutyがお客様それぞれのインシデント対応プロセスへのユニークなアプローチに途切れることなく合わせられるようにしたのです。

インシデントのカスタムフィールド。 それは、最も必要な場所に情報を置いておくことから始まります。本日、PagerDutyはインシデントにおけるカスタムフィールドを発表しました。カスタムフィールドは、API、ウェブ、モバイルアプリ、SMSなど、どのような場所からでも重要なコンテキスト情報へのアクセスを可能にします。カスタムフィールドに引き出されたより多くの情報により、レスポンダーは問題をより迅速にトリアージし、解決できます。

PagerDutyモバイルアプリのアップデート。 また、PagerDutyモバイルアプリのホーム画面も一新しました。レスポンダーにとって重要な情報が一目瞭然になり、インシデントの解決がさらに加速します。レスポンダーはワンタップで詳細を確認し、アクションを起こすことができます。カルーセルには全てのオプションが表示されるため、レスポンダーは外出先でも状況を把握することができます。この機能は現在アーリーアクセス中です。アクセスするには、ここでアカウントにサインアップしてください。

Event OrchestrationのTerraformサポート。 Event Orchestrationは、複雑なロジックとルールの入れ子を利用することで、手動によるイベント処理を削減することができます。10個のイベントルールを1個のEvent Orchestrationに置き換え、90%の効率化を実現しているお客様もいます。

Infrastructure-as-Code実践の一環としてEvent Orchestrationを使用するのにTerraformのサポートを充実を希望するお客様の声を取り入れました!Terraformでオーケストレーションを構成し、大規模のオーケストレーションの作成、管理、変更を簡単に行えるようになりました。Terraformプロバイダーのドキュメントを確認してください。

継続的な改善

インシデントは、解決して終わりではありません。カルチャーに投資し、ベストプラクティスを導入し、過去のインシデントから学ぶことで、チームは回復力を高めることができます。

Service Standards。 デジタル業務の成熟に伴い、お客様はしばしば「良い」の基準をチーム全体で標準化したいと考えるようになります。Service Standardsを利用することで、チームはベストプラクティスに従ってサービスを構成することができます。例えば、アカウント所有者は、サービスの依存関係や、複数のレベルを持つサービスのエスカレーションポリシーなどを監査することができます。Service Standardsは、組織全体にわたってサービスオーナーシップを拡張するためのカスタムガードレールを提供します。Service Standardsについて詳しくはこちらをご覧ください。

次世代レポート。 より積極的な運用体制の構築は、現状把握から始まります。そこから、チームは微調整や改善の機会を特定することができます。PagerDutyでは、新たにレポート機能が強化され、データに基づいてより良い意思決定ができるようになりました。

まず、Service Performance Reportに、新しいインタラクティブな可視化機能、直感的なサービスのドリルダウン機能、インシデントの解決にかかる時間を測定する新しいResponse Effortメトリック、インシデントの優先順位付けに役立つフィルタリングオプションが追加されました。Incident Activity、Escalation Policy、Responder Healthレポートの更新にご期待ください。

この記事はPagerDuty社のウェブサイトで公開されているものをDigital Stacksが日本語に訳したものです。無断複製を禁じます。原文はこちらです。

2022年6月7日  (更新日:2022年9月14日)    |    インテグレーション&ガイド

PagerDutyプラットフォーム上でのAutomated Actionsの拡張

PagerDuty Summitの初日です。専門的なプレゼンター、実用的なコンテンツ、教育セッションで、あなたのPagerDuty IQを高め、あなたのチームの運用エクセレンスを向上させる新しい方法をお見せできることを楽しみにしています。

このコンファレンスでは、私たちの大きなミッションが語られます。オペレーションに革命を起こし、チームが事後対応や修復作業に費やす時間を減らし、新しいイノベーションの実現により多くの時間を割けるようにすること です。PagerDutyでは、このオペレーションの未来は、ソフトウェアの構築と運用を行うデジタルチームだけでなく、組織内の全てのチームにまで広がると考えています。このミッションを実現するために多くのPagerDuty製品と機能が存在しますが、今回はPagerDuty Process Automation®ポートフォリオの一部で、最新かつ最高のPagerDuty Automation Actions®に焦点を当てたいと思います。

新しいアップデートとAutomation Actionsとの統合

Automation Actions は、第一線のレスポンダーをPagerDuty内の修正オートメーションに直接つなげます。インシデントが発生したときに専門家にエスカレーションする代わりに、対応者は安全に委譲された自動化機能を使用して、インシデントのトリアージと解決を自分で行うことができます。その結果、チームはMTTRを短縮し、専門家の業務中断を減らし、インシデントの診断と修復を迅速に行うことができます。

私たちは昨年、組織が自動化へのシンプルな第一歩を素早く始められるよう、Automation Actionsを発表しました。現在、Automation ActionsはPagerDutyプラットフォーム全体に統合されています。全てのユーザーが、ブリッジコールに持ち込まれた問題の診断などの手動で時間がかかる反復作業を取り除くことができます。

Automation Actionsを使った最新かつ最高の自動化機能を見てみましょう。

インシデント対応におけるAutomation Actions。** チームは、PagerDuty内で直接、自動化された診断を実行し、インシデントを修復することができるようになりました。このインテグレーションにより、繰り返しの多い手作業が自動化され、生産性が向上し、エンジニアがイノベーションに集中するための時間を取り戻せます。

カスタマーサービスオペレーションのためのAutomation Actions。** この統合により、カスタマーサービス担当者は、顧客の問題を検証し、自動化によって重要な情報を取得し、ケースの診断と解決を迅速に行うことができるようになりました。エージェントは、顧客に影響を与える問題を検証し、Service CloudのPagerDutyアプリケーションから直接自動化されたアクションを実行することができるようになりました。

Event OrchestrationのためのAutomation Actions。** ネストされたイベントルールと機械学習、正確な自動化トリガーを組み合わせることで、レスポンダーが呼び出される前にインシデントに対処できます。Event Orchestrationとの統合により、一般的な診断を自動化し、繰り返し発生し熟知された種類のインシデントの自己回復を可能にし、MTTRと専門家へのエスカレーションを削減することができます。

PagerDutyのモバイルアプリでの自動化アクション。** Automation Actionsの全てがモバイルに対応しました!Automation Actionsから同じ自動化を呼び出して、PagerDutyモバイルアプリから直接一般的なインシデントを解決します。

Slackでの自動化アクション。** このインテグレーションにより、インシデントレスポンダーはスクリプト可能な診断と修復アクションをSlackから直接展開できます。

あらゆる場所で自動化

デジタルの複雑性と依存性が高まる中で何にでも対応できるようにするためには、手動、硬直的、チケットキューをベースとしたオペレーションから、成果と顧客体験を重視し、運用スピードと回復力を実現し、機械学習とAIによって大幅に自動化された、継続的に改善されるシステムへと変革する必要があります。 そうすることで、チームはより積極的な姿勢に移行し、手作業の負担を軽減し、燃え尽き症候群を回避し、集中力を維持することができるのです。Automation Actionsを使用することで、チームはこの運用上のマイルストーンに到達できるだけでなく、自動化能力をさらに向上させ、成熟させ続けることができるのです。

PagerDutyサミットでAutomation Actions関連セッションもチェックしてください。

Normalize Automation** , Sean Noble, Principal Product Manager, PagerDuty Is it the Cloud? App? Database? Reduce Escalations by giving first responders automated diagnostics** , Jake Cohen, Senior Product Manager, PagerDuty

PagerDutyの自動化ポートフォリオについてもっと知りたい方は、自動化ハブをご覧ください。PagerDuty Automation Actionsについて、また、それがどのようにチームの時間とコストの節約につながるかを知りたい場合は、アカウントマネージャーに連絡するか、今すぐ詳細をご覧ください。 この記事はPagerDuty社のウェブサイトで公開されているものをDigital Stacksが日本語に訳したものです。無断複製を禁じます。原文はこちらです。

2022年6月5日  (更新日:2022年9月14日)    |    インテグレーション&ガイド

PagerDuty for Google Chatを提供開始

私たちPagerDutyの目標は、お客様が働いている場所で、お持ちのツールで対応できるようにすることです。私たちは、補完的なテクノロジーパートナーとの650以上のインテグレーションを提供できることを嬉しく思っています。これらのインテグレーションにより、お客様はPagerDutyプラットフォームから得られる価値を最大化することができ、また独自のインシデント対応プロセスを定義することができます。

本日、PagerDuty for Google Chatを発表することができました。PagerDuty for Google Chatは、GoogleがPagerDutyとの緊密な協力のもとに構築したものです。PagerDuty for Google Chatは、インシデントレスポンダーが通知を受け、解決を開始し、コンテキストを切り替えることなく目の前の問題に集中することを可能にします。 重要なアクションは、適切なチームメンバーを含むGoogle Chatの会話から開始することができ、また、追加のステークホルダーに適切なレベルの可視性を提供することができます。

GoogleスペースからPagerDuty for Google Chatをインストールするには、次の3つの簡単なステップを実行します。

コマンド「@PagerDuty」を入力します(アプリのインストール権限をGoogle管理者から付与される必要があります)。 インテグレーションを承認します(サブドメインのAdminまたはAccount Owner権限を持つPagerDutyアカウントにサインインします)。 PagerDuty ServicesとGoogle Spaceを連携させるために、「/pd_settings」コマンドを実行します。

PagerDuty for Google Chatがインストールされ、設定されると、以下のことが可能になります。

Googleチャットからインシデントを管理

インシデントレスポンダーは、トリガー、通知、承認、解決などのインシデント対応の主要なアクションを、すべてGoogle Chatの会話から離れることなく実行できます。

インシデント対応と解決の迅速化

レスポンダーは、自分やチームメイトが働いている場所で発生した新しいインシデントについて、Google Chatでリアルタイムに通知されます。デスクでも、外出先の携帯電話でも、どこにいてもです。

適切なチームメンバーとの協働

対応者は、専用のウォールーム(またの名をGoogle Space)を作成し、必要な専門家を追加することができます。これにより、ステークホルダーに可視性を提供し、より迅速なコラボレーションを実現することで、インシデントの解決を早めることができます。

この記事はPagerDuty社のウェブサイトで公開されているものをDigital Stacksが日本語に訳したものです。無断複製を禁じます。原文はこちらです。

2022年6月3日  (更新日:2022年9月14日)    |    インシデント&アラート

Automated Diagnosticsとは何か、どのような影響があるか

インシデントのコストはどのように測定するか

テクノロジー業界の多くの人々は、インシデントのコストを、ダウンタイムや影響を受けた顧客や従業員の数といった観点のみから語ります。そして、表面的には正しい見方であることが多いのです。ニュースにもなりますし、顧客の評判と信頼はあらゆるビジネスの成功に欠かせないことは明らかです。

しかし、インシデントの直接的なコストとしてあまり認識されていないのが、インシデント発生時に関与する必要がある人数です。顧客に影響を与えるほど深刻なインシデントであろうとなかろうと、根本原因の調査、トラブルシューティング、インシデントの解決、チームの責任の放棄などに多くの人が関わります。

PagerDutyのデータによると、レスポンダーの時間の50%は、x環境、またはyサービスでの追加サポートのために誰を呼び出すのが最善かを判断する(そして実際に問題があるかどうかを見極める)ために費やされています。この統計によると、インシデントの寿命の50%は、実際の改善活動ではなく、インシデントの初期段階(診断とトリアージの段階)に費やされていることになります。

結論から言うと、インシデントごとにかかる工数と手動アクションの数は、急速に増加する可能性があります。

インシデント対応の自動化

インシデントの深刻度を診断し、何が(どのように)うまくいかなかったのかの構造を理解するなど、インシデントの初期の再発段階に自動化を適用することは、最終的なインシデントの是正を成功させるために非常に重要です。

自動化は人の観点からも重要です。インシデントが発生するたびに同じ作業を繰り返し、チームが疲弊しないようにする必要があります。診断データを第一レスポンダーが確実に利用できるようにすることは、事故対応のルーティング効率と全体的なワークフローに最も重要です。

先に進む前に、まず診断データの定義について説明します。診断データは、インシデントレスポンダーによって取得されるデータで、通常、監視ツールによって提供される情報よりも具体的です。たとえば、監視ツールは、CPUやメモリーが急増したときに警告を発しますが、インシデントレスポンダーは、CPUやメモリーを最も多く消費するプロセスを見ることで調査を行います。したがって、この場合、プロセス名またはID、およびそれらに関連するコンピューターの消費量が「診断データ」となります。

さて、Automated Diagnosticsの定義は分かりましたが、なぜ必要なのでしょうか。それは、Automated Diagnosticsを導入すると、インシデントの発生期間を短縮し、対応にかかる人数を減らすことで、インシデントのコストを削減できるからです。

MTTRの問題点

ここで「問題」という言葉は適さないかもしれませんが、最後まで読んでください。MTTRという指標は、粒度の細かい実用的な洞察を得るには広すぎるのです。MTTR(Mean Time to Repair)は、IT業界では何十年も前から保守性の指標として定番となっています。MTTRには多くの用途があり、一般的な回復速度を説明するのに適していますが、その欠点は一般的であるということです。そして今、レスポンダーの時間の50%は、追加サポートのために誰を呼び出すのが最善かを判断するために費やされていると安全に推測できるため、MTTT(トリアージまでの平均時間)やMTTI(調査までの平均時間)など、MTTRタイムライン内の他の指標にも目を向けるようになりました。

MTTI/MTTT**。ITインシデントを検出してから、組織がその原因や解決策の調査を開始するまでの平均時間。MTTD(平均検出時間)からMTTR(平均修復時間)開始までの時間を表す。_

PagerDutyでは、最初のレスポンダーが受任してからリゾルバーが受任するまでの時間として測定しています。この指標は、インシデント発生時に水面下で実際に何が起きているのかを知るのに役立ちます。自社のデータを観察した結果、MTTIはMTTRの中で最も時間を消費する要因の1つであると推測することができました。現代のビジネスでは、エンジニアが時間と注意を払う必要があるタスクは、ビジネスにとって高価なものなのです。 本当に 高価なものです。

Automated Diagnosticsの活用

ここで、MTTIとAutomated Diagnosticsに話を戻しましょう。MTTIは、レスポンダーが手動で診断データを取得し、xサービスとyインシデントに基づいてどのチームにエスカレーションするかを解読しなければならないという技術的タスクによって長引くだけではありません。解決に必要な専門知識によって、担当者とその制約も変わってきます。例えば、多くの場合、最初のレスポンダーは、データベースやネットワークの「視点」から問題を調査する方法を知りません。それは、彼らのスキル(データベースやネットワークのバックグラウンド)、アクセス、またはチーム的知識(例えば、特定のアプリコンポーネントがサードパーティーのサービスとの複雑なインテグレーションに依存していること)の不足が原因である可能性があります。

このような調査やデバッグの作業を自動化し、チームや担当者にこれらの作業を委ねることができれば、MTTI、ひいてはMTTRにプラスの連鎖効果をもたらすことができます。

なぜAutomated Diagnosticsにこだわる必要があるか

Automated Diagnosticsでできることは以下の通りです。

通常、手作業で収集される情報をファーストレスポンダーに提供するパスを設計することで、希少な専門家へのエスカレーションを削減 対応チームに専門知識を共有 ファイアウォールやVPCの背後にある安全な自動化の呼び出し 人の手を借りずにトラブルシューティングと解決を迅速化 新人エンジニアへの教育のスピードを向上させ、インシデント対応組織の全レベルで最適な効率性を確保

始めましょう

あなたは決断しました。今こそ道を切り開く時ですが、何から始めればいいのでしょうか。

マーケティングのスラングを使えば、「海を沸かそうとしてはいけない(訳注:無理な仕事を引き受けてはいけない)」ということです。複雑さもリスクも低いアクションをいくつか試してみてください。例えば、最もノイズの多いサービスを詳しく調べたり、さまざまな監視アプリケーションから簡単なデータを取得したり、ディスクの使用状況を調べたりすることができます。しかし、この機能を長期的に展開するための戦略を持つことが重要です。確かに、多数のソースからデータを取得し、それをインシデントに追加するスクリプトを書くことは可能です。しかし、それではスケーラブルであることとは程遠くなります。

診断データを取得するために、さまざまなインフラやツールについて考えることは重要です。異機種混在のダイナミックな環境と連動するための標準化されたアプローチが必要です。 この記事はPagerDuty社のウェブサイトで公開されているものをDigital Stacksが日本語に訳したものです。無断複製を禁じます。原文はこちらです。

2022年6月1日  (更新日:2022年9月14日)    |    ニュース&告知

より多くの非営利団体がPagerDutyのパワーを活用できるようImpact Pricingを通じて支援

本日、PagerDutyは、非営利団体、教育機関、公益法人がミッションクリティカルな業務でPagerDutyを使用するためのアクセス障壁をさらに下げるため、Impact Pricingを強化することをお知らせします。Impact Pricingは、ソーシャルセクターが目標を達成するために重要なテクノロジーをより簡単に利用できるよう、当社がカスタマイズして提供する価格設定です。本日より、Impact Pricingは以下を提供します。

無償で5つのProfessionalユーザーライセンスを付与 追加の製品を40%割引 オンボーディングと教育コンテンツの拡充

今日のデジタル経済では、秒単位の時間が重要であることを私たちは知っています。特に、ミッション志向の非営利団体では、数秒が生死を分けることもあります。自殺防止や安全に関するホットラインの運営、災害救助、一刻を争う医療、フードスタンプ(訳注:低所得者向け食料購入費用助成)など、こうしたサービスは24時間体制の可用性に依存しています。利用者やコミュニティーがサービスを常に受けられることをミッション主導型の組織が担保できるよう、PagerDutyのリアルタイムオペレーションプラットフォームは信頼性とアップタイムを保証します。

PagerDutyのビジョンは、重要な仕事を変革し、全てのチームが顧客を喜ばせ、信頼を築けるような公平な世界を実現することです。拡充されたImpact Pricingは、ITから有権者サービスやサポートなどのビジネスオペレーションまで、より多くのチームがPagerDutyにアクセスできるようにすることで、このビジョンをサポートします。これは、世界的に価格が高騰し、多くの組織がさらなるリソースの制約の中で仕事をしている今、特に重要なことです。また、ミッションを重視するチームは、持てるリソースの最高の管理者になることに全力を注いでおり、Impact Pricingはこの目標を達成するのに役立ちます。

PagerDutyの社会的インパクトの深化

PagerDutyの社会貢献部門であるPagerDuty.orgを通じた活動は、公平な世界というPagerDutyの幅広いビジョンを支援する上で重要な役割を担っています。PagerDuty.orgは、製品、人材、フィランソロピー資金などの会社の資産を動員し、より早く人々に届けることで人命を救い、正義と公平を推進する組織を支援します。私たちのプラットフォームの機能とデュートニアンの専門知識を組み合わせることで、私たちはパートナーと協力して複雑な社会や環境の課題を解決し、人々をリスクから繁栄に導く手助けをしています。

2021年、PagerDuty.orgはImpact Pricingを通じて、対象となる非営利団体や公益法人に合計80万4000ドルのプラットフォーム割引と寄付を行いました。ここでは、支援した団体の一部をご紹介します。

Trek Medicsは、革新的な携帯電話技術を通じて、危険にさらされている人々や弱い立場にある人々の緊急対応を向上させています。PagerDutyはBeacon通信プラットフォームのサポートに使用され、このプラットフォームを通じて緊急事態に対応するための警報や調整が行われます。 The Trevor Projectは、レズビアン、ゲイ、バイセクシャル、トランスジェンダー、クィア、クエスチョニングの若者の自殺防止に取り組む非営利組織です。PagerDutyを使用して、自殺ホットラインとテキストサービスを24時間365日利用可能な状態にしています。 Democracy Worksは、選挙に自信を持って参加するために必要なツールとサポートを提供することで、アメリカ人がどんな状況でも投票できるよう支援しています。有権者参加プラットフォームであるTurboVoteと、データツールであるVoting Information Project(VIP)を24時間稼働させるために、PagerDutyを使用しています。

当社の社会的インパクトの取り組みについては、2021年インパクトレポートで、また主な社会的・ESG的成果については、こちらでご紹介しています。

2022年以降、ポジティブな変化をもたらすために

Impact Pricingの改善に合わせて、非営利団体のお客様やPagerDuty.orgの助成金パートナーに充実したサポートを提供するための新しいプログラムを立ち上げています。これには、現在試験的に行っている非営利団体のお客様向けの「ヘルスチェック」サービスも含まれます。PagerDutyの従業員(デュートニアン)が非営利団体のお客様にプロボノで専門知識を提供し、PagerDutyプラットフォームの機能と利点を十分に享受していただけるようにします。ヘルスチェックは、非営利団体がPagerDutyリアルタイムオペレーションプラットフォームの使用を他の部門、チーム、ユースケースに拡張したい場合に、強固な基盤が整っていることを確認するのに役立ちます。

また、PagerDutyのサービス、サポート、教育の各チームと協力し、非営利団体のユーザーが実証済みの手法を採用し、リアルタイムのデジタル運用でより良い成果を上げられるよう、新しいオファリングを作成する予定です。詳細については、[email protected] までご連絡ください。

一刻を争う健康問題から市民活動、環境負荷の低減まで、PagerDutyのテクノロジーは、私たちが非営利団体のお客様にお届けできる唯一で最も価値ある資産です。私たちは、お客様やパートナーとともに学び続け、私たちのリソースと専門知識を効果的に活用し、誰もが自由に活躍できる応答性の高い世界を実現することを約束します。 この記事はPagerDuty社のウェブサイトで公開されているものをDigital Stacksが日本語に訳したものです。無断複製を禁じます。原文はこちらです。

2022年6月1日  (更新日:2022年9月14日)    |    ベストプラクティス

PagerDutyのアジア・太平洋諸島系のコミュニティーを照らす

2021年3月、アジア系のPagerDuty従業員(以下、デュートニアン)と私は、世界的に見られるアジア系ヘイトクライムの増加や、アトランタでの人種差別を原因とする射殺事件について話し合うために集まりました。その1年後、この会話が、アジア・太平洋諸島系(A/PI)のコミュニティーがつながり、リソースを共有し、集団として癒しを始めるための活気ある仮想空間につながるとは思いもよりませんでした。

今年5月、米国とカナダではアジア・太平洋諸島系の文化遺産継承月間(APHM)が祝われました。PagerDutyにおいては、Illuminateの1周年記念式典が行われました。これは、A/PIの従業員を対象とした従業員リソースグループ(ERG)の正式名称です。なぜIlluminate(照らす)か。いくつかの略語や一般名称を思いつきましたが、どれもしっくりきませんでした。しかし、「見えないものを感じる」というテーマは普遍的でした。

大きな「アジア・太平洋諸島系」コミュニティーにはさまざまな声がありますが、全て平等に聞かれているわけではありません。Illuminateは、社内コミュニティーの全ての人と、彼らが共有するさまざまなユニークな経験のためのスペースを提供し、光を照らす必要性を名前の由来としています。

Illuminateの1年目を振り返って

Illuminateのミッションは、A/PIコミュニティーのために安全で包括的な空間を作り、PagerDutyで文化と社会意識を促進することによって、アジア・太平洋諸島系の従業員をサポートし、力を与えることです。現在、私たちのコミュニティーには70人以上のデュートニアンがおり、メンバーは増え続けています。

ERGは、私が当初想定していたものよりはるかに大きく、意味のあるものに進化しています。私たちはコミュニティーを発展させ、さまざまな方法で会社全体と関わりを持つようになりました。

隔月で開催される社内会議。** 私たちは時間と空間を共有し、文化的な祝日を祝ったり、メンバーの勝利(昇進、入社記念日、受賞)に言及したりしながら、このユニークなグループで考え、支え合うためのスペースを提供しています。このような集まりを通じて、普段の仕事では出会うことのない人たちとつながることは、リモートファーストの環境においてますます重要になってきています。 フードストーリーコレクション。** APHM 2021を記念して、A/PIデュートニアンのストーリーを集め、世界共通の愛の言葉である食を通して、私たちの多様な文化や遺産を紹介しました。 Slackでつながる。_** ERGのプライベートチャンネルでは、コミュニティーメンバー同士が共通の体験を通じてつながり、帰属意識を高めています。

APHM 2022をどのように祝ったか

今年の「アジア・太平洋諸島系の文化遺産継承月間」では、初めて大規模なプログラムを実施し、さまざまなイベントを通じて会社や地域社会を巻き込みました。

A/PIトリビア大会。** Illuminateでは、バーチャルトリビアゲームを開催し、チーム対抗でアジアのさまざまな食、文化、伝統について学びました。このイベントでは、世界人口の60%がアジアに住んでいるという興味深い事実が紹介されました。優勝者には、地元のアジアコミュニティーの支援に取り組む2つの非営利団体に寄付するための2,000ドルが贈られました。 アジア・太平洋諸島系の声 プレイリスト。** 私たちのコミュニティーから生まれた、ジャンルを超えた多数のアーティストを称える音楽プレイリストをキュレーションしました。 リアルタイムのソーシャルインパクト。** サンフランシスコのチャイナタウンYMCAのフードパントリーで、ボランティアイベントを開催しました。ボランティアは、地元チャイナタウンの240世帯のために、食品の運搬と袋詰め作業を行いました。 A/PIデュートニアンの週間スポットライト。** Illuminateでは、他のERGの事例を参考に、グループ内のさまざまなメンバーに焦点を当て、全社的なチャンネルやソーシャルメディアに発信しています。 A/PIデュートニアンパネルのハイライト。_** Illuminateは、この月の締めくくりにバーチャルイベントを開催しました。パネリストたちは、文化的アイデンティティーがどのように子供時代や現在の自分を形成したか、人種的ステレオタイプにどのように影響されたか、東アジアおよび南アジアのアメリカ人/カナダ人としての多文化的アイデンティティーをどのように成長させることができたかについて、多様な視点を共有する場となりました。

進むべき道を照らす

昨年、私たちが成し遂げたこと、そして小さく始めて大きく前進したことを、この上なく誇りに思います。また、私たちの前にはまだ多くの仕事があることも認識しています。

Illuminateは、PagerDutyの6つのERGのうちの1つに過ぎません。異なる過小評価グループ間で重要な交差作業を行う機会が豊富にあります。そして、APHMは私たちの公式ERGとしての最初の大きな取り組みでしたが、これで終わりではありません。私たちのコミュニティーにポジティブな影響を与えるプログラムを作り、開発し続けるつもりです。私たちの旅は、まだ始まったばかりなのです。

個人的なことですが、Illuminateは、私や同僚に、今までできなかったかもしれない、職場のアイデンティティーの一部を高める機会を与えてくれたことに感謝しています。今後は、より多くのコミュニティーケアと、参加と帰属意識の高まりを期待しています。 PagerDutyより、アジア・太平洋諸島系の文化遺産継承月間のお祝いの意を込めて! この記事はPagerDuty社のウェブサイトで公開されているものをDigital Stacksが日本語に訳したものです。無断複製を禁じます。原文はこちらです。

2022年5月19日  (更新日:2022年9月14日)    |    ニュース&告知

AWS Marketplaceで提供開始。PagerDuty® Runbook AutomationとPagerDuty® Process Automation On Prem

PagerDuty® Runbook AutomationとPagerDuty® Process Automation On Premが世界有数のクラウドプロバイダーであるAWS Marketplaceで利用可能になったことを発表します。AWSは200種類以上のクラウドサービスを提供しており、クラウドネイティブビジネスの構築や成長、既存インフラストラクチャーのクラウドへの移行を簡単かつ魅力的に行えるため、クラウドが提供する無限のスケール、敏捷性、柔軟性を活用し始めることができます。

企業がクラウドを導入し、集中型のモノリシックなアーキテクチャーからハイブリッド環境へと移行・変革し始めると、この新たな自由が、クラウドのダイナミックな性質に起因する多くのインシデントを引き起こす可能性があります。 組織は、クラウドでの拡張と成長を目指しながら、新しいテクノロジー、運用プロセス、人材を採用し連携させることを検討しています。

イノベーションの主体となる

サービスオーナーシップの採用は、変革を成功させるために最も重要なことです。これは「構築する者が責任を負う」フレームワークで、開発者と顧客の距離を縮め、イノベーションを加速させ、高品質のコードを提供します。速く革新的に動ける、この新たに得た自由によって、組織はより多くの価値を顧客に提供できます。しかし、この新しい自由は、ダウンタイムを引き起こし、顧客に影響を与え、ブランドを危険にさらし、開発者を計画的な作業から引き離し、最終的にイノベーションを鈍化させる可能性もあります。

クラウドでは、インシデントの大半がアプリケーションレベルで発生するため、全てのサービスを完全に可視化し、合理的な対応を迅速に編成し、可能な限り自動化して人手を介さず問題を解決することが非常に重要です。企業が拡大、成長し、迅速に行動するためには、自動化が運用の成熟度において重要な役割を果たします。自動化によって開発者の時間が解放され、顧客体験を犠牲にしたりチケットに対応したりすることなく、より革新的な開発ができるようになります。

PagerDuty Operations Cloud™は、デジタルビジネスが緊急かつミッションクリティカルな業務をあらゆる側面から管理できるよう支援します。企業、人、テクノロジーを統合し、顧客、従業員、企業の評判に影響が及ぶ前に、緊急かつ時間的制約のある業務を特定、エスカレーション、自動化、解決します。

自動化で顧客により多くを提供する

PagerDuty® Process Automation On PremとPagerDuty® Runbook Automationは、クラウド運用チームが運用手順を標準化、自動化し、他の関係者にセルフサービス要求として安全に委譲できるようにする自動化プラットフォームを提供します。AWSコンソール、管理機能、インスタンス、ソフトウェアは全て、自動化されたシーケンスのノードおよびステップとして組み込むことができます。SSO、秘密管理、ジョブレベルの監査ログとの統合により、適切なアクセス制御とコンプライアンスが保証されます。

PagerDuty Process AutomationとPagerDuty Runbook Automationを使用することで、チームは以下のことが可能になります。

人手を介さず、または自動化されたランブックアクションを最初のレスポンダーに与えることで、数分でリクエストを解決する 認証、アクセスコントロール、全てのアクティビティーのログ、コンテキストチェックにより、セキュリティーとコンプライアンスを最適化し、ユーザーが適切なタイミングでアクションを実行できるようにする チケットのクローズやインシデントの管理に追われることなく、お客様のためにイノベーションを起こす時間を増やす

どちらを選ぶか迷っていますか?私たちのブログ記事「セルフマネージドオートメーションとSaaSオートメーションの選択における5つの考慮点」も参考にしてください。

PagerDuty製品の一覧はこちらです。5月26日に開催するウェビナーもどうぞ。

この記事はPagerDuty社のウェブサイトで公開されているものをDigital Stacksが日本語に訳したものです。無断複製を禁じます。原文はこちらです。

2022年5月16日  (更新日:2022年11月29日)    |    ニュース&告知

KubeCon Europe 2022:ツールスタックのポテンシャルを最大限に引き出す方法をご紹介

ブースを訪れて、エンターテイメント賞パックに応募しよう

KubeConとCloudNativeCon - ヨーロッパ _そして、PagerDutyはオンラインとライブで参加します。

メインのコンファレンスは、2022年5月16日から19日まで、スペインのバレンシアで開催されます。エキスポホールの弊社ブースS79にお立ち寄りいただき、ご挨拶をお願いします。会場に来られない方は、バーチャルブースでおしゃべりすることもできますよ。

KubeConの準備のために、私たちはTwitchチャンネルを使って、コンファレンスに参加する私たちのパートナーたちと一緒に雑談しています。ご存知のように、PagerDutyはパートナーとのインテグレーションによる広範なエコシステムを有しています。もちろん、PagerDutyがなくてもKubernetesを動かすことはできますが、なぜそんなことをしたいのでしょう?

ここでは、YouTubeのTwitch Playlistから、パートナーのPagerDutyインテグレーションがどのように機能するかを示すいくつかの例とリンクを紹介します。

Dynatrace

顧客満足度と行動、アプリケーション、ハイブリッドマルチクラウドのパフォーマンスに関するリアルタイムのインテリジェンスを用いて、完璧なソフトウェア体験を提供します。AIを活用した根本原因分析により、顧客が直面するパフォーマンスの問題を自動的に特定し、数秒以内に根本原因を突き止めます。オープンAPIにより、サードパーティのメトリクスを取り込み、複雑なシステム統合を可能にします。このデモでは、Rob JahnがDynatraceのインテリジェンス、Rundeckでの自動化、PagerDutyのインシデントを組み込んだ洗練されたインシデント修復ワークフローを紹介します。

Dynatraceの Twitchの動画はこちらです。

Lacework

Lacework は、クラウドのための完全なセキュリティーとコンプライアンスを提供します。クラウドにより、企業はワークロードを自動的にスケーリングし、より速くデプロイし、自由に構築することができますが、可視性を維持し、コンプライアンスを守り、既知の脆弱性を排除し、環境内のホストワークロードと定型でないインフラの両方の活動を追跡することはますます困難になってきています。LaceworkとPagerDutyを統合し、Laceworkのイベントをチームのレスポンダーにルーティングします。クラウドインフラ全体の設定問題、動作の異常、コンプライアンス要件をタイムリーに管理し解決します。 Laceworkの統合について詳しくはこちらをご覧ください。

レースワークのTwitchの動画はこちらです。

HashiCorp Terraform

PagerDutyのアカウントオブジェクトをTerraformで管理しましょう!  Infrastructure as Codeの全ての利点を享受し、チームがリアルタイムでサービスを管理するのに必要な柔軟性を提供します。インフラストラクチャースタックがますます複雑になり、サービスやシステムの数が増え続ける中、チームは設定をコードのレイヤーに抽象化することに注目してきました。インフラをコードとして構成するというこのコンセプトは、さまざまな理由から業界全体で支持されています。HashiCorpのTerraformのようなツールは、技術スタックを宣言的に構成する主要な方法の1つとして登場しました。時間の大幅な節約、設定の一貫性、エラーの発生確率の低減、デプロイメント間のバラツキの軽減などの利点により、エンジニアは設定よりも構築に集中できるようになります。

HashiCorp Terraformとのインテグレーションをご確認ください。

HashiCorpのTwitchの動画はこちらです。

Teleport

Teleportは、システムアクセスやロールエスカレーションのためのジャストインタイムソリューションです。Teleportは、クラウドアプリケーションとインフラストラクチャに邪魔にならない安全なアクセスを提供します。厳格なゼロトラストルールを導入する場合、時には権限の昇格や昇格が必要になることがあります。PagerDutyを活用することで、リクエストをアラート通知しシステムアクセスの承認または拒否できます。PagerDutyのスケジュール機能を使えば、誰がオンコールしているかに基づいて管理者権限を動的に割り当てることができます。Teleportには、セッションの記録や応答者間でのリアルタイムのセッション共有など、素晴らしい機能があります。 詳細はTeleportのインテグレーションをご確認ください。

テレポートのTwitchの動画はこちらです。

InfluxData

InfluxDataは、メトリクスとイベントのために構築されたオープンソースプラットフォームです。このプラットフォームは、時系列データのために構築されました。ダッシュボード、クエリ、タスク、エージェントのすべてが1つの場所にあり、時系列データの必須ツールキットと言えます。InfluxDBは、OSS、クラウド、エンタープライズ版で共通のAPIを使用することで、さらにプログラマブルでパフォーマンなものとなっています。PagerDutyにイベントを送信し、チームに情報を提供します。 InfluxDataのインテグレーションをご確認ください。

InfluxDataのTwitchの動画はこちらです。

LogDNA

LogDNAは、あらゆる規模のログ管理を可能にします。LogDNAのクラウドログプラットフォームは、DevOpsチームが本番環境の問題を迅速に発見し修正できるよう支援し、チームは最高の仕事である素晴らしい製品の構築に戻ることができます。LogDNAからPagerDutyに直接インシデントアラートを送信します。LogDNAのインテグレーションをご確認ください。

LogDNAのTwitchの動画はこちらです。

Honeycomb

Honeycombは、最新のエンジニアリングおよびDevOpsチームが本番システムを効率的に観察、デバッグ、改善するための観測機能を提供します。PagerDuty + Honeycomb統合は、Honeycombから送信されたアラートに基づいてオンコール対応者に通知するためにHoneycomb Triggersを使用します。このインテグレーションは、Honeycomb社によってメンテナンスとサポートが行われています。詳細はHoneycombのインテグレーションをご覧ください。また、Honeycombは最近、私たちのポッドキャスト「Page it to the Limit」にも参加しています。Liz Fong-Jones、Charity Majors、George Mirandaが出演したエピソードをご覧ください。

HoneycombのTwitchの動画はこちらです。

Gremlin

GremlinとPagerDutyで信頼性を向上させ、アラート疲労を軽減します。マイクロサービスやDevOpsは、迅速なイノベーションと継続的な改善を可能にします。しかし、これらの新しいアプローチは、システムの複雑性を指数関数的に増大させます。つまり、今日、重要なアプリケーションが故障し、財務上の損失、顧客の不満、従業員の燃え尽き症候群を引き起こしているのです。従来の品質保証ではこの複雑さに対応しきれないため、革新的な企業は制御されたカオスエンジニアリングを採用し、故障を未然に防ぐためのテストを行っています。GremlinとPagerDutyを使用すれば、実世界の障害シナリオを安全に実行し、自動化して、複雑な分散システムが中断のない顧客体験を提供できるという確信を得ることができます。Gremlinのインテグレーションをご確認ください。 GremlinのTwitchの動画はこちらです。

Fairwinds、GitLab、Sysdig,など、私たちのディレクトリーに掲載されている他の統合もあります。

PagerDutyで連絡を取り合う

あなたの声をお聞かせください。私たちのチャンネルで紹介されたい場合は、コミュニティーチームにメールを送ってください。PagerDutyのインテグレーションについてもっと知りたい方は、私たちのウェブサイトにある完全なリストをご覧ください - もしあなたが独自のインテグレーションを開発したい場合は、私たちの開発者ポータルをチェックしてください。私たちはTwitchチャンネルに多くのパートナーを招待する予定です。twitch.tv/pagerdutyでフォローし、私たちのYouTubeチャンネルを購読してください。PagerDutyのエコシステムで何が起こっているのか、最新の情報を得るために私たちのコミュニティーに参加してください。

この記事はPagerDuty社のウェブサイトで公開されているものをDigital Stacksが日本語に訳したものです。無断複製を禁じます。原文はこちらです。

2022年4月25日  (更新日:2022年9月9日)    |    ベストプラクティス

最適なインシデント対応ソフトウェアの選び方

デジタルエコシステムの複雑化に伴い、インシデントがかつてないほどのスピードで発生しています。さらなる負担に対処するため、インシデントレスポンダーは、労力とノイズを減らし、適切な人材を適切なタイミングで現場に投入する、拡張性と再現性のあるインシデント対応プロセスの確立を支援するソフトウェアに注目しています。

最高のインシデント対応ソフトウェアは、インシデントのライフサイクル全体に対応します。アラートノイズの低減から詳細なインシデント分析の提供まで、インシデント対応ソフトウェアは、インシデント解決のための自動的および人的要素の両方をカバーし、収益の損失、顧客体験の低下、チームの燃え尽きなどを防止する必要があります。

インシデント対応ソフトウェアとは?

レスポンダーは、インシデントを迅速に解決する必要があることを理解していますが、リソースと時間の不足により対応に手間取っています。インシデントの特定、解決、予防に対する最新のアプローチがなければ、何が本当に修復を必要としており、何が後回しでよいのかがわかりません。このため、非効率的で部分的にしか効果のない消火活動のサイクルから抜け出せず、長期的なイノベーションと計画的な業務への投資が妨げられています。

インシデント対応ソフトウェアは、インシデントが発生するたびに、チームがリアルタイムで適切なアクションを取ることを支援し、重要なインシデントの迅速な解決と今後の発生を防ぐための知識の習得につなげます。さらに、ステークホルダーや経営陣に情報を提供し、顧客への影響を軽減することができます。チームは、合理化されたエンドツーエンドの対応によって、より大量のインシデントを管理し、レトロスペクティブ(振り返り)によって対応プロセスを継続的に改善することができます。

インシデント対応ソフトウェアの特徴

レスポンダーの動員

インシデント対応ソフトウェアは、業務上の問題やインシデントが、常にリアルタイムで対応できる適切な個人またはチームに送られるようにする必要があります。理想的には、レスポンダーはどこにいても、どのデバイスからでも、問題に対する通知を受け取り、直ちに行動を起こすことができる必要があります。

レスポンスの自動化

チームは、どのような優先度のインシデントに対しても、適切な対応を設計する能力と自律性を備えていなければなりません。自動化能力は、診断から自動修復に至るまで幅広く対応する必要があります。つまり、レスポンダーはインシデントに関する正しい情報を即座に得ることができ、自動化によって人の介入なしにインシデントを解決できる可能性さえあるのです。

ステークホルダーとのコミュニケーション

今日のインシデント対応においては顧客への影響を軽減するために技術チーム以外の協力も必要です。経営陣、サポート、さらにはマーケティング、法務、営業などのステークホルダーは、レスポンダーの作業を中断することなく状況を把握する必要があります。インシデント対応ソフトウェアは、レスポンダーが対応プロセスをできるだけ中断させることなく状況の更新を伝えられるようにする必要があります。

統合化する能力

チームは、インシデント情報の収集、進捗状況の記録、および全体のコミュニケーションを行うために、さまざまなツールを使用しています。インシデント対応ソフトウェアは、モニタリングツール、ITSMツール、チャットやビデオ会議などのコラボレーション・コミュニケーションツールなど、チームが既に使用しているツールと統合されていることが理想的です。

オペレーショナルインサイト

インシデント対応ソフトウェアは、時間の経過とともにチームが向上するよう支援する必要があります。アナリティクスは、過去のシステムパフォーマンスの全体像を把握することで、よりスマートでリアルタイムの意思決定を可能にします。

インシデント学習

振り返りは、合理的な学習プロセスを提供し、インシデントの解決と予防をより効果的に行えるようにします。インシデント対応ソフトウェアでは、タイムラインを作成し、インシデントの重要な進展を文書化し、今後の改善計画を立てることができるようにする必要があります。

インシデント対応ソフトウェアのメリット

レスポンダーの健康と体験の向上

インシデント対応ソフトウェアを導入することには、多くのメリットがあります。重要な利点の1つは、レスポンダーの健康と体験です。オンコールで対応することは大変なことであり、疲弊し、燃え尽き症候群や離職につながる可能性があります。ノイズや労力を制限するインシデント対応ソフトウェアがあれば、最前線にいるチームは、消火活動の時間を減らし、イノベーションに多くの時間を費やすことができます。

社内コミュニケーションの向上

インシデント発生時のコミュニケーションは重要であり、技術チーム内や技術チーム間だけではありません。ビジネスチームもインシデントにどう対応すべきかを知っておく必要があります。営業はデモを延期すべきか。マーケティングはキャンペーンを一時停止すべきか。サポートはチケットの増加に備えるべきか。インシデント対応ソフトウェアによって、チームはこれらの社内ステークホルダーとコミュニケーションを取り、全員が同じ見解を持つことができます。

お客様との信頼関係の向上

顧客の期待はかつてないほど高まっており、インシデントは信頼を損なって解約につながる可能性さえあります。インシデント対応ソフトウェアを使用すれば、対応プロセスが合理化され、MTTRが向上し、顧客のためにサービスをより早く復旧させることができます。さらに、インシデントの状況について顧客と積極的にコミュニケーションをとり、信頼と透明性を高めることができます。これによって、競合他社に差をつけることができます。

結論

インシデントの量と複雑さが増すにつれて、組織は収益の損失と顧客体験の低下のリスクにさらされています。インシデント対応ソフトウェアは、チームが重要な業務に迅速かつ適切に対応し、関係者全員の体験を向上させるために役立ちます。インシデントは避けられないものですが、最高のインシデント対応ソフトウェアは、対応者がサービスを迅速に正常な状態に戻し、組織全体に拡大する改善を行うために必要なツールを提供します。

この記事はPagerDuty社のウェブサイトで公開されているものをDigital Stacksが日本語に訳したものです。無断複製を禁じます。原文はこちらです。

2022年4月19日  (更新日:2022年9月9日)    |    ニュース&告知

PagerDutyの2021年ソーシャルインパクトレポート。インパクトマインド醸成がもたらすパワーの全貌を明らかに

この度、PagerDutyの2021年ソーシャルインパクトレポートを発表することができ、大変嬉しく思います。

私たちが関心を寄せているのは、PagerDutyが存在することで世界はより良くなっているか、という問いです。私たちは、私たちの行動が、個人として、また共同で、周囲の世界にどのような影響を与えるかを検討し、説明するよう求めるソーシャルインパクトの考え方を採用することで、この方向に進んでいます。

PagerDutyの2021年ソーシャルインパクトレポートは、私たちのソーシャルインパクト部門であるPagerDuty.orgを通じて、またお客様、コミュニティーパートナー、デュートニアン(訳注:PagerDutyの従業員)との連携によって、私たちが2021年にもたらした影響力を説明します。今年の報告書には、私たちのソーシャルパフォーマンスに関するより詳細な説明とともに、初となる環境・社会・ガバナンス(ESG)の開示が含まれています。この報告書は、私たちがステークホルダーやコミュニティーに対して説明責任を果たし続け、世界に与える影響をどのように測定し、適応させているかについて透明性を確保するために不可欠なものです。

PagerDutyソーシャルインパクトレポート2021の全文はこちらで公開されています。

昨年の私たちの仕事は、パンデミック、政治的分裂の深化、人種的正義の強化の必要性が叫ばれる中で完了しました。今年も、その背景には波乱の予感があります。気候変動や世界的な紛争、不公平の拡大など、私たちは多くの未知なるものに直面しています。しかし、私たちが力を合わせれば、より大きな正義と自由と健康を全ての人にもたらすことができることを、私は知っています。

変化を加速させるソーシャルインパクトの取り組み方

私たちが支援したプロジェクト、非営利団体や公益法人のミッション達成を支援したこと、そしてデュートニアンが地域社会に惜しみなく還元したことを誇りに思います。これらの成果は、私たちの仕事とパートナーシップの指針となる3つの明確な原則によって導かれています。私たちは、どのようにインパクトを与えるかがインパクトそのものと同じくらい重要であることを、身をもって体験しているからです。ここでは、そのハイライトをご紹介します。

私たちは、全面的なサポートを提供します。製品、人材、意思表明、慈善活動資金など、会社の資産を総動員し、パートナーの目標に最も適した方法で支援を行います。 187万ドルの資金を全世界の668団体に提供。 2021年の助成対象団体の75%が、女性や有色人種のリーダーによって率いられている。 2万3300人にCOVID-19ワクチン接種(Go Give Oneキャンペーンへの投資の結果)。

私たちは、信頼に基づく公平な助成金支給を実践しています。 基本的な運営方針は、信頼に基づく参加型のフィランソロピーです。 健康格差の是正とCOVID-19ワクチンへの公平なアクセスを支援するための投資を行い、環境正義に関する助成金を試験的に導入し、従業員リソースグループ(ERG)助成金創出プログラムを開始。 助成金は用途を限定しない資金として提供され、組織が革新的で長期的なプログラム投資を行えるよう、初めて複数年にわたる助成を実施。 社会問題、風土、文化に関する見識を持ち、最も必要とされる場所に、最も必要とされるタイミングで資金を投入するリーダーに託す。

私たちは、インパクトマインドを育んでいます。 私たちの行動が、個人として、また集団として、周囲の世界にどのような影響を及ぼすかを検証します。私たちは、デュートニアン一人一人が、それぞれの役割の一部として、このインパクトを生み出すことができるよう、力を与えます。

92%のデュートニアンがボランティア活動や寄付に参加。
デュートニアンによるボランティア活動は5232時間で、2020年と比較して83%の増加。
90%のデュートニアンが、ソーシャルインパクト活動を実施しているこの会社で働くことを誇りに思うと回答。

レポート本文では、私たちの非営利団体のお客様がどのようにPagerDutyのプラットフォームを活用して活動を進めているのか、詳しくご紹介しています。この中には、米国で処方された未使用の薬の流通を促進するためにPagerDutyを利用しているSIRUM社が含まれています。また、WeRobotics社はPagerDutyを利用して、フィリピンのタウィタウィ州でのCOVID-19ワクチン配送のためのドローン利用の現場・業務支援のためのインシデント対応を支援しています。

ESGロードマップによる企業指針、社会・環境貢献への取り組み

ESGを正式なものとし、日常業務に組み込むことは、企業としての回復力にとって重要であり、公平で持続可能な世界に貢献するという当社のビジョンに沿ったものです。私たちのESGプログラムは、私たちのソーシャルインパクト活動を自然に進化させたものです。PagerDutyの既存のプログラムは、国連の17の持続可能な開発目標(SDGs)のうち11の目標に対する進捗に寄与しています。私たちは、これらの成果を促進し、PagerDuty内のESGをさらに整合させるための投資を行っています。2021年、私たちは重要な優先事項を特定し、ESGロードマップを作成し、説明責任を割り当て、初期投資の目標を定めました。さらに、進捗を測定するために、以下のようなベンチマークを設定しました。

男女間の賃金格差を0.01ドル以内にすることを達成 人種・民族間の公平な給与を0.02ドル以内にすることを達成 多様性のある取締役会を構築した結果、50%が女性、75%がマイノリティーに ESGの優先順位を決定するための最初のマテリアリティ評価を実施 2年間の温室効果ガスインベントリーを完了

この報告書では、包括的雇用プログラム、包括性、多様性、公平性(ID&E)目標、環境への影響の評価と削減方法など、当社のESGプログラムについてより詳細に説明しています。

2022年に向けての展望

私たちは、非営利団体のお客様により大きな価値を提供するために新しいプログラムを立ち上げ、Time-Critical Health(一刻を争うヘルスケア)と人種的平等への初期の投資と学びを基にしましたが、より健康でより公平なコミュニティーを作るためには、さらにやるべきことがあることもわかっています。

2022年、私たちは引き続きソーシャルインパクトをPagerDutyのビジネスの中核に据え、PagerDutyのテクノロジーがいかにしてお客様の医療の遅れを治し、環境への影響を軽減するか、また私たちの社会正義への投資がいかにして最も効果的に制度的差別をなくすことができるか、などを考えていきます。現在のモデルを逆転させた新しいプログラムであるImpact Labsを立ち上げ、Time-Critical Healthパートナーに100万ドル以上の資金、製品クレジット、技術ボランティアサポートを提供します。また、新しいImpact Pricingを導入し、コストの障壁を減らし、非営利団体や認定公益法人がPagerDutyプラットフォームの利用を拡大できるようにする予定です。そして、気候変動に対する公正かつ公平なコミュニティー戦略を構築し、長期的な投資の指針としています。私たちは、ESGの優先事項を進め、その進捗を報告し続けていきます。

この数年間は、未知なるものへの挑戦と、日々の回復力の鼓動の連続でした。私たちは、パートナー、お客様、そして私たちが働くコミュニティーからインスピレーションを受けながら、楽観主義者であり続けます。私たちは、全ての人が自由に活躍できる応答性の高い世界というビジョンに向かい、より多くの正義、自由、そして健康を目指し、努力を続けていきます。

PagerDutyソーシャルインパクトレポート2021の全文はこちらからご覧いただけます。https://impact-report.pagerduty.com/

PagerDuty.orgと、非営利団体やソーシャル企業のためのImpact Pricingの詳細については、https://www.pagerduty.com/foundation/

この記事はPagerDuty社のウェブサイトで公開されているものをDigital Stacksが日本語に訳したものです。無断複製を禁じます。原文はこちらです。

2022年4月7日  (更新日:2022年9月9日)    |    インシデント&アラート

Intelligent Alert Groupingシリーズまとめ

Co-authored by Chris Bonnell, PagerDuty Data Scientist VI

Intelligent Alert GroupingについてのEIアーキテクチャーシリーズの最終回へようこそ。このシリーズを楽しんでいただけたなら幸いです。もし私たちの過去の投稿を見たいなら、ei-architecture-seriesタグをお使いください。少し時間をとって、私たちが学んだことを全て振り返ってみましょう。

記事のポイント

Intelligent Alert Grouping(IAG)のデフォルトの動作は、インシデント管理における抽象化されたパターンに基づいており、また機械学習モデルも利用しています。つまり、このツールは、いわば経験則に基づいた推測を数多く行うことができますが、個々の環境では完全に一致するものを生成できない可能性があります。それを補うために、マージ、タイトル、サービスデザインなどを活用することで、グループ化の動作を改善することができます。

マージ動作

インシデントは、PagerDutyアプリケーションのマージと呼ばれるプロセスによってグループ化されます。一般に、どのインシデントも他のインシデントとマージすることができます。特にIAGでは、この投稿でレビューしたように、個々のアラートを新しいインシデントにマージすべきか分離すべきかを判断しようとするときに、Alert Titleフィールドを分析します。アラートが不適切に共通のインシデントにマージされた場合、それらを分離し、あるべき場所に移動させるための措置を講じることができます。機械学習モデルは、反復するたびに行動を強化するため、アラートが残るか、マージされるか、移動されるかによって、今後の行動が改善されます。

アラートタイトル

IAGはAlert Titleフィールドを基にマージ動作を行うため、以前の投稿で一般的な機械学習の原理を用いたアラートタイトルの基本を説明しました。ここでは、3つの重要なポイントがあります。

アラートのタイトルは、人間と機械学習の両方に役立つべきもので、機械学習寄りにするため、残りのインシデントの詳細は詳細に記述すべきです。 機械はコンテキストを理解できないので、コンピューターが「一意」「共通」を区別できるようにするのが重要であることを忘れないでください。 プッシュ通知で表示されるアラートタイトルの部分には字数制限があるため、人間向けのテキストはタイトルの後半ではなく、前半に配置するようにしましょう。

これらの実装方法を掘り下げるには、前述の記事の機械学習の部分と、Towards Data Scienceブログの「Introduction to Natural Language Processing for Text」のブログ記事をご覧ください。

サービスデザイン

最後に紹介した概念は、サービスデザインのことです。 一般的な考え方としては、同じサービス上の類似したアラートはデフォルトで、他のサービス上のアラートよりも相関性が高いと想定されます。サービス定義をどの程度細かくするかによって、PagerDutyアプリケーションで「サービス」をどのように実装するかが決まるため、ここではかなり多くのことを説明できました。一般的なルールとして、2つの「もの」が別々のサービスであるべきかどうか分からない場合は、望ましいエスカレーションの経路を模倣してください。もし両者が同じチームや人によって所有されているのであれば、PagerDutyアプリケーションで両者を1つのサービスとみなすことで、エスカレーションを尊重し続け、アラートの相関性をより高くするという利点も得られます。もし、異なるチームが担当している場合や、アラートの相関性を高めたくないという理由で論理的に区別している場合は、別々のサービスとして定義してください。所有するチームについては、一般的なサービス定義と所有権のベストプラクティスについて詳しく知りたい場合は、フルサービス所有権運用ガイドをご覧ください。

今後の方向性

ここまでです。Intelligent Alert Groupingをフル活用する方法について、時間を割いて学んでいただき、本当にありがとうございました。もしこれらの記事を長期的に参照したい場合は、ei-architecture-seriesタグをブックマークしてください。さらに議論を深めたい場合は、当社のコミュニティーフォーラムをご覧ください。より詳細なQ&Aについては、サポートチームにお問い合わせください。 この記事はPagerDuty社のウェブサイトで公開されているものをDigital Stacksが日本語に訳したものです。無断複製を禁じます。原文はこちらです。

2022年4月4日  (更新日:2022年9月9日)    |    インテグレーション&ガイド

PagerDuty® Automation Actionsでチームの自動化能力を民主化する

現実を直視しましょう。インシデントは高くつくものです、本当に。しかし、本番環境におけるインシデントの高いコストは、必ずしもサービスの低下やネガティブな顧客体験が原因とは限りません。PagerDutyのレスポンスデータによると、インシデント収束までの時間の50%以上は、最初のレスポンダーによる調査と出動段階(私たちは「トリアージ」と呼んでいます)に費やされています。 言い換えると、問題を見極め、解決するのに適役を呼び出す部分です。

上記の統計を考慮すると、インシデントライフサイクルの影の経費は、インシデントを発見したエンジニア、問題に対応し根本原因を特定したオンコールエンジニア、その他インシデントライフサイクルに動員されるあらゆる分野の専門家の時間であることは明らかです。さらに、対応プロセス全体に手作業が加わると、コストがかさみます。非常に高くつきます。

実際のところ、開発組織の時間は、ビジネスの利益と同じくらい貴重で重要です。そして、サービスやアプリケーションの開発が複雑化するにつれて、「削減された時間」は、追跡、定量化、および継続的な改善を行うための、より重要な指標となります。インシデント対応プロセスのさまざまな側面を自動化する方法を見つけることは、チームの時間を節約し、全体的な効率を高めるのに役立ちます。どうすればいいのでしょうか?PagerDuty® Automation Actions(旧PagerDuty Rundeck Actions)の出番です。

PagerDuty® Automation Actions

PagerDuty® Automation Actionsアドオンは、第一線のレスポンダーをPagerDuty内の修正オートメーションに直接接続します。インシデントが発生したときに専門家にエスカレーションする代わりに、レスポンダーは安全に委譲された自動化機能を使用してインシデントのトリアージと解決を自分で行うことができます。その結果、チームはMTTRを短縮し、専門家の業務中断を減らし、インシデントを迅速に診断して修復することができます。

PagerDuty® Automation Actionsは、自動化された診断と修復をインシデント対応ワークフローに接続します。Automated Diagnosticsとは、インシデント発生時にレスポンダーが自動的に呼び出すことができる、本番サービス用のアクションのセットです。専門家にエスカレーションして一般的なテストを手動で実行させるのではなく、レスポンダーはPagerDutyから安全かつ確実にこの自動診断を実行し、インシデントタイムラインにリアルタイムで返されるレスポンスを確認することができます。

サービスの再起動や診断など、指定されたアクションを実行することができます。

これらの診断テストにより、レスポンダーは、大人数を巻き込んだり、一般的なレスポンダーの階層をエスカレーションすることなく、より効率的に適切な専門家にインシデントをエスカレーションして解決できます。専門家は、これらの一般的な診断の結果を見て、すぐに取りかかることができます。

さらに、チームはSlackインスタンスから直接これらのアクションを呼び出してインシデントについて共同作業を行うこともできます。これにより、ターミナルからサービスにアクセスしたり、ウインドウを切り替える必要がなくなり、より迅速かつ効率的にインシデントを解決できるようになり、専門家へのエスカレーションも減らすことができます。自動診断の利用が進むと、Event Intelligenceを利用した自動修復やトリガーなどの用途にも利用できるようになります。

PagerDuty® Automation Actionsは、組織の応答プロセスにおける4つの主要な問題領域を解決するのに役立ちます。

サイロ化された専門知識。** 第一線のレスポンダーは、組織の環境内にある全てのアプリケーションやサービスの遺伝子構成を把握しているわけではありません。 専門家への絶え間ない割り込み。** レスポンダーは、そのアプリケーションやサービスの専門家と思われるエンジニアにエスカレーションを行い、イノベーションを妨げ、インシデント収束を鈍化させています。 繰り返し、手動の診断手順。** インシデント発生時の最初のステップは、大体同じです。インシデントの解決に取り組む以前に、これらの同じ手動ステップを踏んでおく必要があります。 複雑で広大な本番環境。** どのシステムにアクセスし、どのようなアクションを取るべきかを知るには、時間を要することがあります。さらに、全ての対応者が特定の本番システムにアクセスする権限を持っているとは限らず、エスカレーションプロセスを難しく長引かせることがよくあります。

PagerDuty® Automation Actionsは、上記の課題を次のように解決します。

チーム間でオートメーションを委譲する。** 通常専門家が呼び出す自動化された手順を、第一線のレスポンダーに展開する。 より少ないエスカレーションで、より早くインシデントを解決する。** 一般的なリクエストや作業を自動化することで、エスカレーション先を特定する時間を減らし、より多くの時間を修正に費やすことができます。 人手を介した支援・自己回復の自動化を誘発する。** PagerDutyのEvent Orchestrationにより、レスポンダーが呼び出される前に診断アクションを呼び出すことができます。 セキュリティーを考慮した自動化の安全な発動。** レスポンダーは、インシデントの影響を受けるシステムに対して実行する権限を持つアクションのみを表示します。全てのアクションはログに記録されるため、強固なセキュリティー体制を維持することができます。

以上のことを簡単に箇条書きでまとめると、PagerDuty® Automation Actionsはチームを支援します。

応答時間を最大30分短縮、MTTRを最大25%短縮 エスカレーションされるインシデントの量を削減 対応チームに専門知識を共有 レスポンダーが呼び出される前に、人手を介した支援と自己回復の自動化を開始 ファイアウォールやVPCの背後にある安全な自動化を誘発 手作業に代わる自動化されたアクションを導入 事後検証の円滑化、オペレーターの作業軽減のためのインシデント文書化の充実

PagerDutyの自動化ポートフォリオについてもっと知りたい方は、自動化ハブをご覧ください。PagerDuty Automation Actionsについて、また、それがどのようにチームの時間とコストの節約につながるかを知りたい場合は、アカウントマネージャーに連絡するか、今すぐ詳細をご覧ください。

この記事はPagerDuty社のウェブサイトで公開されているものをDigital Stacksが日本語に訳したものです。無断複製を禁じます。原文はこちらです。