インシデント管理は、アプリケーションをサポートする大事な要素です。アプリケーションの仕事をするとき、私たちはプロダクション(本番バージョン)のリリースに大部分の時間を費やします。これには、ロードマップについての打ち合わせ、ニーズと要望の特定、私たちのストーリーと機能の構築が含まれます。その後、多くのサイクルが開発、テスト、QA(品質検証)に費やされます。エンジニアリングチームは環境を準備しながら作業します。その後、アプリがローンチを迎え、チームは次のアプリに移ります。アプリを本格的に提供するのは運営チームの責任です。これがアプリとのやりとりの終わりである場合、開発チームは、改善に関する貴重なフィードバックを多く未解決または未発見のまま残しています。 そこで、インシデント管理プロセスが、アプリケーションを改善し、最終的にお客様にとってより良いエクスペリエンスを提供する鍵を握ることになるのです。
1. 必要に応じて迅速にエスカレーションし、解決までの時間を短縮する
明確かつ十分に利用されるインシデント管理プロセスがあると、アプリケーションサポートは組織文化の自然な一部となります。インシデントは、ベストプラクティスを反映した方法に沿ってより迅速に、より一貫して解決されます。明文化されていなかったり不規則だったりするインシデント管理は、解決と絶え間ない消火作業で試行を繰り返すことにつながる可能性があります。
2. クロストレーニングを奨励する
「夜中に誰かを起こしてそれを修正させる」という原則に従って、インシデント管理プロセスは、開発チーム内とチーム間の両方でクロストレーニングを奨励します。 これには、コードの可読性の重要性を強調し、コメントすることで、運用文書と構成管理を最新の状態に保つことを奨励するという副次的な利点があります。
3. 信頼と透明性の文化を築く
開発チームのすべての人は、バックアップとプライマリの両方でエスカレーションのローテーションに参加する必要があります。これはコミュニケーションとチームの友情を深めます。また、透明性を奨励することで、オンコールに出る開発者はすでにアプリケーションの一般的な感覚を持っているはずであるため、解決までの時間が短縮されます。 チームがマイクロサービスのパラダイムに従っており、各アプリケーションに1つのサービスを含む場合、これはさらに強化されます。
4. ジュニアスタッフの成長の道を提供する
私たちは、私たちが前進するために急いで来た場所を振り返ることをしばしば忘れています。 チームはまた、思考や意見の多様性から恩恵を受けます。インシデント管理プロセスでは、エスカレーションパスのすべてのレベルをアプリケーションに公開することで、これを促進できます。インシデントを解決することは、ジュニアメンバーにより多くのチームのことを理解させるのに役立ちます。特定のインシデント解決について貴重な知識を得る一方で、アプリケーショントポロジの包括的な設計にも触れる機会が持てます。才能ある人を募集し維持することは、組織にとって重要です。第1層のインシデント対応から開発およびエンジニアリングチームまでの可視的なパスを提供することは、貴重な採用ツールになります。
5. より良い全体プロセスを作成する
継続的なインテグレーションと継続的な配信技術を組み合わせることで、以前の月次または四半期の導入よりも迅速に展開されます。 これはインシデントを促進し、量と頻度を減らします。 これの成果は、はるかに短い時間枠でバグを修正でき、繰り返しの一時的な修正の必要性を大幅に削減できることです。 これにより、エンジニアリングチームとオペレーションチームの技術的負債の蓄積も少なくなり、実践的に役立つ修正の道が開かれます。
6. 定量的フィードバックを生成する
追跡される各インシデントは、多くのもののカプセル化です。 これには、修理のための複数の人の時間、解決を記した文書、おそらくバグレポートの提出が含まれます。また、アプリケーションを操作する際に苦労する点の評価も明らかにするに違いありません。これにより、アプリケーションのロードマップを知らせることができ、実装可能な高価値、低エフォートな機能拡張に関する会話を促進することができます。
7. 内部ツールを開発する
チームが一定のサイズに達すると、職務の差別化が行われます。 これは組織の自然な進歩であり、規模を拡大する方法です。 以前はうまく機能していたアプリケーションを操作するツールは、組織の成長を維持するために不可欠になっています。 インシデント管理プロセスは、このニーズだけでなく、これらのツールを作成するときに開始する場所を明示することもできます。
アプリケーションのインシデント管理は、多くの場合、顧客サポートと成功にとっては重視されないものですが、顧客はアプリケーションの一部のみを見ています。 彼らが経験するのは、アプリケーションのレイヤーを通る狭いパスだけです。 もっと目に見えるくらいアプリケーションの復元力が高く、インシデントが迅速に解決されるほど、すばやくアプリケーションを使用することができます。
本記事は米国PagerDuty社のサイトで公開されているブログをそのまま日本語に翻訳したものです。原文はこちらを参照してください。