Case Study
Evernote
Evernoteは、メモを取ったり、Webページを保存したり、モバイルデバイスやコンピュータから写真を取り込んだりできるアプリケーションです。Evernoteにコンテンツを追加すると、他のデバイスと自動的に同期され、オンラインコミュニティと共有することができます。Evernoteはデバイス間でデータを同期することに重点を置いているため、ダウンタイムによって引き起こされる潜在的なデータ損失を制限することが不可欠です。
初期のEvernoteの課題
Evernoteのユーザーは、世界中の特定のサーバーにマッピングされます。サーバ停止が発じた場合、最大20万人のユーザーのコンテンツが失われる可能性があります。このような災害は修復不可能なものになり、大量のユーザーが流出する可能性があります。「クラッシュが発生したときを知って、適切に対応し、できるだけ早く回復できるようにすることは、私たちにとって非常に重要です」と、Evernoteのオペレーション担当バイスプレジデントAlexei Rodriguez氏は言います。
Evernoteは、Nagios、Pingdom、およびSplunkを使用して、システムとサービスを監視していました。しかしながら、複数の監視システムを使用すると、アラートを追跡し毎回適切なエンジニアに連絡することが難しくなりました。インシデントが発生するたびに監視システムの1つがオンコールエンジニアに電子メールまたはSMSを送信し、エンジニアが問題を認識します。エンジニアが応答しなかった場合、監視システムはチーム全体に警告しますが、悪いことに誰も眠りから目を覚ますことはありません。
「エンジニアが電子メールやSMSを見ていないときにも警報システムがチーム全員に連絡を取っていたので、何度かそのやりとりに苦労しました。そのようなシナリオは痛々しいものです」と、Rodriguez氏は言います。
誰が通話中であったかを追跡するために、EvernoteはGoogleカレンダーを使用し、スケジュールを各監視システムに手動でインポートしていました。しかしながら、スケジュール変更が行われたときに問題が発生することもありました。そのため、Rodriguez氏はカレンダーを変更してから、さまざまな監視システムの連絡先情報を手動で変更する必要がありました。
PagerDutyはどのように問題を解決したのか?
Evernoteがデータを保存するのに最適な場所であり続けるためには、ダウンタイムを最小化することが不可欠でした。つまり、Evernoteは適材適所のエンジニアに確実に連絡するアラートシステムが必要でした。そこで、PagerDutyに目を向けることになります。
PagerDutyの幅広い連絡方法やツールの統合監視のおかげで、Evernoteはすべてのアラートが適切な連絡先に届くことを確信することができました。
「PagerDutyは個々のエンジニアに適切な通知する体制を確立する能力があります」とRodriguez氏は述べています。
「もしもあなたがぐっすり寝ていたならば、PagerDutyは電子メールではなく問題発生直後に電話をかけてくるのです」
Evernoteの従業員は、電子メール、SMS、電話、iOS、またはAndroidのプッシュ通知とどのような時間間隔で連絡を取るかを自分で決めることができます。何かがダウンすると、PagerDutyはEvernoteを起こしてくれるのです」
PagerDutyはオンコール要員のスケジューリングの変更を容易にします。PagerDutyのカレンダーは従業員に電話をかけたのか、どのように連絡を取っているか、そしてオンコールエンジニアからの応答がない場合はエスカレーションポリシーを明確に表示します。
「コール・ローテーションを管理する必要がなくなったため、PagerDutyは私の生活を楽にしてくれました。連絡先を考える必要はありません」(オペレーション・アーキテクト・GerardoLópez-Fernández氏)
PagerDutyのコールスケジュールはエンジニアがアラートに応答することを保証します。Evernoteのエンジニアは、インシデントが特定のアクションを必要とする場合にのみ連絡を取ることができます。
「システムがチーム全体を目覚めさせてくれるでしょう。PagerDutyがモバイルデバイス経由でアラートを認識してエスカレートする能力は不可欠で、あらゆる問題に対処することができます」
「PagerDutyは複数の診断システムからの連絡が混在する際の複雑さを解消します。PagerDutyでは国をまたいだとしても不必要なアラートでスパムを送ることはありません」(Lopez-Fernández氏)
PagerDutyは、Evernoteが会社内の各チームに対して複数のオンコールスケジュールを使用できるようにします。システム管理者、管理チームのそれぞれに専用のオンコールスケジュールを割り当てることができるのです。システム管理者ではなくマネージャからのアクションが必要なインシデントが発生した場合、PagerDutyは適切な人物へ連絡を取るようにします。緊急事態が発生した場合でも、PagerDutyはEvernoteのエンジニアの生活に影響を与えず、適切な連絡手段で問題解決に導きます。
従業員数: 280 +
業種: ソフトウェア
所在地: Redwood City, CA
取引期間: 2012年5月から