2021年6月に開催されたPagerDuty Summit 2021から、注目セッションの様子をご紹介します。 パート1では、CEOのJennifer Tejadaによる基調講演「DigitalOps Now」と、データサイエンスのシニアディレクターであるMitra Goswamiのセッション「The Power of AIOps」の要約を掲載します。
PagerDuty Summit 2021 基調講演:
DigitalOps Now by Jennifer Tejada , CEO of PagerDuty
PagerDutyのCEOであるJennifer Tejadaが、近年のAIOpsのニーズの増大とそれにPagerDutyがどう対応するかを解説 ©PagerDuty
最初の講演「DigitalOps Now」でJenniferは、大手企業がデジタルアクセラレーション、DevOpsトランスフォーメーション、クラウド移行への投資を増やし続けており、75パーセント以上が今後1年半の間にAIOpsに投資すると予想されていると述べました。
ここでゲストとして招待されたNetflixのDelivery Engineering担当ディレクターであるAmy Smidutz氏は自分のチームとNetflixがプラットフォームの信頼性を確保するためにPagerDutyにどう頼ってきたかを共有しました。PagerDutyの機能によりチームとサービスを結びつけることで、インシデントが起きた時に反応するのではなく、予測して計画を立てることができます。
PagerDutyの新しい製品「Service Graph」ではビジネスと技術サービスを担う組織を一望できる ©PagerDuty
続いてJenniferはPagerDutyの新製品である「Service Graph」を紹介しました。これは、フルサービスのオーナーシップを強化するための、ビジネスと技術サービスの関係の全体的なマップです。最も意味のある、または問題のある組織の領域をセグメント化し、これらのプロセスを推進するデータソースを直接リンクして、ビジネスサービスと技術サービスの間に新しい接続を作成します。Jenniferはもう一つ、無駄な時間とエスカレーションを減らし、人の介入を必要とせずに対応を自動化する「Runbook Action」を発表しました。
ここでゲストとして招待されたZoom、Box、Tenable、UiPathの投資家兼取締役でゴールドマン・サックス・グループのKim Hammonds氏は、デジタルトランスフォーメーションがどこまで進んだか、そしてまだどこまで行かなければならないかについて、彼女の考えを共有しました。デジタルトランスフォーメーションを主導するための種を撒くには、第1に稼働時間、可用性、回復力、災害復旧などのすべてが機能する必要があります。そして2番目に重要なのは、世界中の誰もがサイバーセキュリティの脅威に対処しているためのサイバーセキュリティです。3つ目はカスタマーエクスペリエンスです。そして4つ目は何が起こっているかをデータから理解し、データを使って顧客により良いサービスを提供する方法を理解することです。
ゴールドマン・サックス・グループの会長兼CEOであるDavid M. Solomon氏が登壇 ©PagerDuty
ここでさらにスペシャルゲストとして、ゴールドマン・サックス・グループの会長兼CEOであるDavid M. Solomon氏が登壇しました。彼は「PagerDutyのようなツールを使うことで、エンジニアがトラブルシュートに備えて定期的につながっている状況を確実に担保できる」と述べました。彼は、ゴールドマン・サックス・グループが個人を対象にしたビジネスを拡大しているとも述べ、その理由は、「デジタルの世界は個人が白紙の状態で参加することを可能にし、さらに経済的生活を統合するためのツールを提供するからだ」とのことです。彼は、現在定着している消費者金融サービスの世界で巨大なデジタルによる破壊が起きると信じています。彼はまた、消費者がやりたいことは摩擦の少ないデジタルアプリケーションによって、はるかにシームレスな方法で経済的生活を管理することだ、と考えています。
PagerDuty自身のチーフプロダクトオフィサーであるSean Scottが、最新のデジタルオペレーションについて紹介 ©PagerDuty
続いて、PagerDutyのチーフプロダクトオフィサーであるSean Scottが登壇し、組織内で発生する重要で喫緊の作業に現代のデジタルオペレーションが対処している状況を紹介しました。彼は、2019年から2021年の間に重大インシデントが21%増加したことが分かったと述べました。各インシデントの解決には、平均2時間かかり、組織の管理には年間15万ドル以上の費用がかかりました。また、昨年はレスポンダーが以前より不規則に働くことが増え、3分の1以上が24時間体制で問題に対処するために1日2時間余分に働いていることも分かりました。従業員は過労になると仕事を辞める可能性が高くなります。そこで、対策が必要です。
この点での最大のニュースが昨年9月のPagerDutyによるRundeck買収でした。お客様からのフィードバックによると、彼らは労力を減らし、エスカレーションを減らし、運用全体の保守とサポートを民主化する必要がありました。そのため、PagerDutyはそのニーズに投資したのです。RundeckチームとPagerDutyによる自動化が統合されたことで、インシデント解決時間の短縮と開発者の作業の中断を減らせます。お客様の一部はすでにこの価値を理解していると思います。
PagerDutyがRundeckのテクノロジーをマージすることで実現しつつある主なイノベーション ©PagerDuty
6カ月後、彼らのチームは、PagerDutyプラットフォームにこのテクノロジーを統合したことで大きなイノベーションを提供し続けました。
Sean Scottは、Salesforce ServiceCloud用の新しいPagerDutyアプリケーションを提供するSalesforceとの戦略的パートナーシップも発表しました。この新しいパートナーシップにより、最前線のカスタマーサービスエージェントと主要な内部の利害関係者に、Salesforce Service Cloud内で直接に強力なPagerDutyエクスペリエンスを提供します。この機能は、昨年、プロフェッショナルレベルのカスタマーサービスプランナーに新しい価値を追加し、新しいビジネスレベルのカスタマーサービスプランにも統合されます。これは、サポートエンジニアのデスク統合と監視統合に役立つものです。
彼はさらに架空の大手小売業者のビジネスを想定し、PagerDutyの新機能をデモしました。
最後に彼は「PagerDutyはあなたをデジタルの勝者にするパートナーであり、私たちは一緒に完璧な顧客体験を提供することができます」と述べてセッションを結びました。
PagerDuty Summit 2021 基調講演:
Power of AIOps
PagerDutyのデータサイエンスのシニアディレクターであるMitra GoswamiがAIOpsの威力について解説 ©PagerDuty
注目のセッション「The Power of AIOps」では、PagerDutyのデータサイエンスのシニアディレクターであるMitra Goswamiが、AIOpsの威力について、その理由と、この分野で最も大きな影響を与える可能性のあるAIの使用例について説明しました。
「AIOpsという言葉は2016年にGartnerが作り出したもので、「ビッグデータと機械学習を組み合わせて、イベント相関、異常検出、因果関係の判断など、IT運用プロセスを自動化するもの」です。この定義は組織によって異なります。Gartner自身は数年後に『AIOpsなしではIT運用の未来はない』と主張しました」。
彼女は次に、PagerDutyがAIOpsをどう強化するかを説明しました。
「この旅を始めたとき、当社はお客様と話し合い、AIOpsの3つの問題点を共有しました。お客様は『まず大事なことはセットアップと開発の容易さだ』と言いました。この点は、PagerDutyは実装が非常に簡単で、すぐに使えます。2番目に大きな問題点は『原因をすばやく発見すること』です。この点についてPagerDutyは新たに3つのソリューションを採用しました。3つ目の問題は、お客様がAIと機械学習のソリューションの信頼度を高めてほしいと考えていることです。(AIという)ブラックボックスで重要な決定を下すことになるので信頼性が高いことを求めています」。
彼女はまた、開発者にとっての3つの問題と、AIOpsソリューションを必要とする理由を共有しました。「最初の問題点は『アラートが殺到すること』です。インシデントが発生すると、開発者は数百または場合によっては数千のアラートを受け取ります。そのため、関連性のある有用な情報を確認することは非常に困難です。2番目は開発者から見て『高レベルの重要なコンテキストが不足している』ことです。十分な時間があるかどうか分からず、狭い部分しか見られない場合、それらはいくつかの重要なコンテキストへの配慮を欠くかもしれません。 3番目は、インシデントを以前の変更に関連付けることができないことです。インシデントの80%が変更イベントによって引き起こされており、現在のすべての情報が右側の同じ場所にないため、インシデントが発生しているときにアクティブな変更と履歴の変更をそれらのインシデントに関連付けることは非常に難しいのです。以上の課題を解決してできるだけ短期間に素因を見つけられるようにするために、AIOpsソリューションが必要です。」
彼女はここでPagerDuty式の「素因分析(RCA)」を共有しました。これは、「勧告、修復、最適化」という3つのアプローチに基づいています。彼女は、「素因の勧告」はこの旅の非常に重要なステップであると述べました。そして目標は、開発者が素因に対処し、できるだけ早くイノベーションに戻ることができるようにすることです。
より高速な素因分析(RCA)により、MTTRが大幅に削減されます ©PagerDuty
彼女は次のように述べています。「効果的な素因分析(RCA)は、開発者の日常生活に直接的な影響を及ぼします。より高速な素因分析により、解決までの時間(MTTR)が短縮され、重大なインシデント解決プロセスの中で起きてほしくない燃え尽き症候群やストレスも回避されます」。
彼女はまた、「RCAをするための3つの方法」についても説明しました。「1つ目はノイズの低減です。PagerDutyのソリューションは、同様のアラートを集約し、関連するインシデントをマージすることに基づいています。そのため、開発者は、何千ものシステムがアラートを開始したときにも波に呑まれることなく、重要で関連性のあることに集中できます。2つ目は、インシデントの分類です。3つ目は変更イベントとインシデントの相関度を示すことです。レスポンダーは潜在的な要因を特定し、無関係な変更を排除できます」。
彼女はまた、Event Intelligenceパッケージとそのデジタル運用計画で利用できる「Intelligent Alert Grouping」機能を紹介しました。チームがシステムの複雑さの増大に合わせて増員できない場合、アラートによる疲労が士気を落とし、何が実行可能かを特定するのを困難にする、という問題に言及しました。この問題を解決するために、PagerDutyのアルゴリズムは、インバウンドのシグナルのパターンとレスポンダーの動作の両方から、アラートをグループ化する方法を学習します。
Incident Alert Groupingは、関連するアラートを単一のインシデントに自動的にグループ化できます ©PagerDuty
彼女が次に言及したのは、新機能の「Incident Outliers」です。これは、レスポンダーが対応に集中している間は、過去の同様のインシデントの経験に関するコンテキストの情報を得る機会が不足することです。解決策は、インシデントをRare、Novel、またはFrequentに自動分類する最適化されたモデルを用意することです。
Incident Outlierは、各インシデントをrare、novel、またはfrequentに分類できる機能です ©PagerDuty
3番目の新機能は、「Change Events & Correlation」です。このソリューションは、お客様の履歴データとアクティブな変更を確認する、最適化されたモデルを提供します。お客様は過去の変更に関するウィンドウを移動することができ、変更をインシデントに関連付けられるようになります。
「Change Events & Correlation」は、お客様がインシデントの原因となる可能性のある変更を特定するのに役立つ機能です ©PagerDuty
最後に、Mitraは、PagerDutyがAIOpsをどう改善しようとしているのかについて言及しました。「PagerDutyの巨大な分析プラットフォームの強みを活用しており、そのアルゴリズムはお客様との信頼関係を構築するために、誤報の50〜60%を即座に削減しています。また、新しい機械学習機能を開発し、お客様と対話できるようにするハイブリッドな方法を導入しています。そうした施策により、多くの力をお客様に還元し、AIOpsソリューションの信頼度を向上させています」。
すべての画像の著作権はPagerDutyにあります。
PagerDuty Summit 2021のサイトでは詳しい資料と動画を公開していますので、こちらをご覧ください。