デジタル運用管理のリーディングプロバイダーであるPagerDuty(ページャーデューティー)は、Runbook Automation機能に大幅な機能強化を加えた「Runner Replicas」を発表した。この新機能により、ユーザーは同一のRunnerインスタンスを複数デプロイできるようになり、自動化エンジンは単一の実行ポイントから、分散型でフォールトトレラントかつ水平方向にスケーラブルなサービスへと進化する。この開発により、手動による介入が不要になり、エンジニアリングチームはインフラの不具合対応ではなく戦略的な業務に集中できるようになる。
Runner Replicasは、従来のモデルからの転換を表している。従来のRunnerは、通常、VMまたはコンテナ上で実行される単一の実行プロセスであり、割り当てられた自動化を実行する。このモデルはシンプルだが、ホストがダウンしたり過負荷になったりするとボトルネックになる可能性がある。Runner Replicasを使うと、ユーザーは同じ構成を使って、異なるホスト上に同じRunnerの複数のインスタンスを起動し、それらを全て同じ論理ユニットの一部として登録できる。この共有ワークロードにより、瞬時に冗長性が確保され、ホストの1つがオフラインになった場合でもジョブをトリガーできる。
この新機能の実用的影響は計り知れない。例えば、DevOpsチームやSREチームの日常業務において、複数のサービスにわたるデプロイメントの自動化は複雑な作業になりがちです。Runnerホストの1つにカーネルパッチが必要になった場合、レプリカがなければ、チームは何も問題が起きないことを祈るか、トラフィックを手動で再ルーティングするしかない。レプリカがあれば、ホストにパッチを適用するだけで、他のレプリカがその分を補ってくれる。また、この機能により、サービスが稼働している場所の近くでジョブを実行することも可能になり、地理的な親和性と実行の回復力の両方を実現する。
Runner Replicasは、小規模なVMクラスターを運用している場合でも、大規模なコンテナ化されたインフラストラクチャーを運用している場合でも、チームの状況に合わせてフレキシブルに対応できるように設計されている。より制御された環境ではレプリカを手動で作成できるが、オートスケーリンググループやKubernetesなどの一時的なインフラストラクチャーでは、レプリカが自動的にスケーリングされる。また、システムには組み込みの安全対策が用意されており、レプリカが互換性のないバージョンや不適切な構成で動作している場合は警告が表示される。
本質的に、Runner Replicasはリスクを軽減し、時間を節約するために設計されており、チームは実行ギャップを心配することなく、大規模な自動化を自信を持って実行できる。また、失敗コストを最小限に抑え、効率化の重要な手段である自動化自体が脆弱性の原因となることを防ぐ。この新機能は、Runbook Automation 5.15のSaaS版とセルフホスト版の両方で利用できる。
出典:PagerDuty