2023年の初め、私は最近のウェビナーで、ForresterのPrincipal AnalystであるCarlos Casanova氏と、AIOpsが組織変革の成功をどのように促進できるかについての素晴らしい対談をしました。その内容によると、Carlos氏は、AIOps市場をテクノロジー中心(主にAPM/Observabilityプレーヤー)とプロセス中心の2つの陣営に分けたそうです。そしてPagerDutyは、複数のテクノロジーを活用したプロセス中心のソリューションです。
プロセス中心のAIOpsソリューションを使うと、組織はデータに関する追加のコンテキストと洞察を得られます。これにより、行動するまでの時間が短縮され、データ品質の向上、意思決定の強化、ルーティングと通知の効率の向上、そして最終的にはITが提供するサービスの価値が高まります。
このように、より大きなコンテキストでスピードを上げることができるため、重要なインシデントの時間を縮めることができるのです。注意すべき重要な点は、最初のルーティングは仮想オペレーターによって行われる可能性があるということです。つまり、自動化により追加のトリアージ/デバッグ情報が生成されたり、人間のレスポンダーが介入する前に修正が完了する可能性があるということです。
Carlos氏と私は、会話を通じて、対応者のためによりよいコンテキストを作り出すというテーマに何度も立ち返りました。AIOpsの中核的なユースケースを解決するために、どのような機能が最も重要だと考えているか尋ねたところ、彼は次のように答えました。「異なるアラート間の相関関係を迅速に特定することで、個人が対処しているノイズが大幅に軽減されます。影響を受ける全ての個人にこのクリーンなデータ信号を提供することは、業務を改善するために不可欠です。このデータがあれば、環境内で何が起きているのか、より簡単かつ迅速に把握できます。そして、取るべき正しい行動を迅速に決定し、迅速な修復のために誰が関与する必要があるかを決定し、必要な労力を減らして、他のイベントやアラートのために時間を確保できるようになります。
しかし、チームは往々にして開始に苦労します。私たちは、「待つことや計画することのコストは、おそらく、着手して反復することのコストに見合わない」ということに同意しました。同氏はさらに、「全体的な取り組みは困難に見えるかもしれませんが、すぐに達成できる可能性はあります。待つことはお勧めできません。小さな戦術的な取り組みから始めて、より大規模で長期的な戦略目標に積み上げて、進歩を示し、価値を実証し、勢いを築きましょう。」と付け加えています。
つまり、コンテキストを素早く取得し、自動化で素早く対応し、これらの勝利を見るためにすぐにプロセスを開始するという、スピードも継続的なテーマなのです。しかし、プレッシャーが増大し続けていることも私たちは知っています。
チームは、景気後退や減速の影響を受けています。チームが効率を上げ、成功を測定する方法について尋ねたところ、自動化が成功の鍵になると話しました。
Carlos氏は、こう答えました。「頻繁に発生する単純なシナリオは、その修復の全部または一部を自動化するのに最適な候補です。5~10個の単純なシナリオを完全に、あるいは部分的にでも自動化することで、組織は自動化することに抵抗があるような複雑なシナリオに集中するために、個人の時間を大幅に確保できるのです。」
しかし、プロジェクトでパフォーマンスを発揮する前のフォーミング、ストーミング、ノーミングも認識する必要があります。成功の測定方法や考え方にも変化があり、それを受け入れなければなりません。
「AIOpsは、IT部門のワークロードを軽減して、デリバリーチームが『より少ない労力でより多くのことを実行できる』ように支援することもできます。これらの変更により既存のメトリクスが無効になることに留意することが重要です。個人が単純で低レベルのアクションを実行しなくなるため、新しいベースラインを確立する必要があります。例えば、ある技術者が1週間に300件のインシデントを手動で解決しているとします。そのうち30件は単純なもので、簡単に自動化された修復が可能です。これらのインシデントのMTTRは90%低下する可能性があります。しかし単純なインシデントを排除しても、技術者が代わりに処理するのは中くらいに複雑なインシデント10件だけです。これは、技術者が1週間に処理するインシデントが20件減少することを意味します。技術者の平均MTTRは上昇し、インシデントはキューに長く留まり、中・高難易度のインシデントの比率が高くなります」とCarlos氏は述べています。
私が遭遇する最も一般的な質問の1つは、「どうやって始めればよいか」ということです。従来、AIOpsは何年もかかる可能性のある取り組みと見なされてきました。多くの不確実性と変化を抱えて旅を始めるのは気が遠くなるかもしれません。PagerDutyはイベントの相関関係をワンクリックで作成することでプロセスを大幅に簡素化し、チームがすぐに価値を見出せるようにしましたが、これでAIOpsへの旅が終わるわけではありません。
Carlos氏は、AIOpsを始めるに当たって、また、利用可能なOpExの減少に直面した際に得たインサイトをシェアしました。「予算は常に課題ですが、AIOpsの価値を実証し、明確に説明することで、そのハードルをある程度は克服できます。組織とのエクスペリエンス向上の価値を語る、ビジネスケースの物語を作成しましょう。強化されたコンテキスト関連データを使用してルーティングと通知を改善することで、同じ従業員がより少ない労力で、より多くのワークロードを処理できるようにする方法を実証してください。より経験豊富な上級スタッフメンバーに基づいた提案的なアクションが提供されるため、パターンと傾向によって下位レベルのリソースがより高度なアクションを実行できるようにする方法を説明します。これらのことは、組織が現在直面している経済的課題に対処し、提供する製品やサービスの質を向上させるのに役立ちます。組織は、選択したソリューションが迅速なタイムトゥバリューを持つことを示すのが重要です。例えば、ユーザーエクスペリエンスを向上させるために、ソリューションはトランザクションの完全な視覚化をどれだけ早くサポート担当者に提供して、停止を解決できるでしょうか?応答時間を短縮するには、ソリューションで環境を分析し、新しいアラートを即時または自動で処理できる単一のインシデントにどの程度迅速に関連付けることができるでしょうか?経済的に困難な時代には、タイムトゥバリューが非常に重要です。」
多くのお客様にとって、タイムトゥバリューはROIよりもさらに重要です。デジタルの戦場で勝者と敗者を分けるのはスピードです。避けられない問題にいかに早く対処し、改善を繰り返すことができるかが、チームを競合他社から引き離し、優れた顧客体験を提供することにつながります。
I&Oのリーダーは、経済的不確実性によりコストを削減し、より少ないリソースでより多くの成果を達成することを余儀なくされており、既存のリソースの拡張と最適化に役立つ新しいツールとアプローチを必要としています。AIOpsは、大量のデータとイベントを処理し、ルーティングと応答をリアルタイムで管理し、インシデントをより迅速に解決するための信頼できる方法をチームに提供します。ビジネスのこれらの課題に対処する方法を学ぶことに興味がある場合は、このウェビナーで、Carlos氏との残りの会話を聞いてみてください。
この記事はPagerDuty社のウェブサイトで公開されているものをDigital Stacksが日本語に訳したものです。無断複製を禁じます。原文はこちらです。