はじめに
多くの企業で業務のデジタル化が進んでおり、その大半はクラウドに移行しています。 この変革に伴い、データチームはこれまで以上に大規模で複雑なデータセットを分析し、下流チームは日常的により迅速、かつ正確な意思決定を行えるようにしなければならなくなりました。その結果、ほとんどの組織では、顧客データ、製品データ、利用データ、広告データ、財務データなどを扱う必要があります。これらのデータセットは、構造化されているものもあれば、半構造化されているものもあり、また非構造化されているものもあります。つまりさまざまなタイプのデータが、複数のソースから無限に、しかも矢継ぎ早に到着しているのです。
このようなビッグデータの量、速度、多様性(一般に3Vと呼ばれる)の増大により、データライフサイクルの管理に対する従来のアプローチでは不十分となり始めたのです。同時に、2000年代前半の終わりごろから、ソフトウェア開発チームは、ソフトウェア開発ライフサイクルにアジャイル手法を採用しはじめました。これらの方法論は、DevOps(DevelopmentとOperationsの合成語)として知られるようになりました。 次の図は、DevOpsのプロセスを高いレベルで示しています。
DevOpsプロセス
一方、データの専門家は、ソフトウェア開発の同僚を見習い、DevOpsの方法論と概念を自分たちの複雑なデータ環境に適用し始めました。 これが、DataOpsのアプローチをもたらしたのです。
では、DataOpsとは何でしょうか?
DataOpsは、ソフトウェアおよびデータエンジニアリング、品質保証、インフラストラクチャー運用を、1つの機敏な組織にまとめ、活用するプラクティスです。DataOpsは、組織がデータアプリケーションを開発・展開する方法を最適化します。プロセスの進化、組織の連携、複数のテクノロジーを活用し、データの作成、移動、変換、消費に関わる全ての人(開発者、データエンジニア、データサイエンティスト、アナリスト、ビジネスユーザー)が関係を構築できるようにします。DataOpsは、コラボレーションを促進し、サイロを取り除き、よりよいビジネス上の意思決定を行うために組織全体でデータを使用する能力をチームに提供します。総合的に見ると、DataOpsは、チームがデータを収集して準備し、分析し、完全なデータセットからより迅速かつ正確な意思決定を行えるようにします。またDataOpsは、データの品質を監視することで、データのダウンタイムや障害を低減します。
DataOpsは、組織のデータ環境に共通するさまざまな課題に対応します。その中には、以下のようなものがあります。
- サイロを取り払い、チーム間のコラボレーションを促進する データエンジニア、サイエンティスト、アナリストが協力しなければなりません。 文化的な大変革が必要です。企業は、社員がデータドリブンのアイデアで迅速に実行することを認める必要があります。
- **効率性と俊敏性の向上 ** チーム間のコミュニケーションとコラボレーションを強化し、自動化を利用することで、バグや不具合への対応を劇的に減らすことができます。
- データの品質を向上させる。 DataOpsは、データ専門家がデータを自動的にフォーマットする機能を提供し、複数のデータソースを使用して、チームがデータを分析し、よりよい意思決定を行うのを支援します。 4.データチームがデータ品質を監視 そのため、データのダウンタイムや障害が発生しなくなります。
データオブザーバビリティーとは?
「データオブザーバビリティー」は、複数のツールやデータライフサイクル全体にわたって、組織のデータの健全性を監視・管理するためのツールや手法を提供します。データオブザーバビリティーによって、組織は、問題がビジネスユーザーに影響を与える前に、リアルタイムで積極的に問題を修正できます。
Data ObservabilityとDataOpsの関係とは?
データオブザーバビリティーは、DataOpsを可能にするフレームワークです。 DataOpsチームは、アジャイルアプローチを使用して、エンタープライズデータからビジネス価値を引き出します。しかし、誤ったデータや不正確なデータに問題があると、特に問題(別名:データダウンタイム)がビジネスに影響を与える前に検出されない場合、深刻な問題が発生する可能性があります。幸いなことに、AIを活用したデータオブザーバビリティーにより、組織はデータダウンタイムを検出、解決、防止できます。
Data Observabilityツールは、鮮度、統計的分布、ボリューム、スキーマ、リネージといったデータに関するものです。データオブザーバビリティーツールの正しい使用は、より質の高いデータ、信頼性の向上、そして運用面でより成熟した環境をもたらします。
DataOpsのステークホルダーは誰ですか?
組織内の全部門間の関係を構築する、強力な中心データチームを構築することは、データ運用の成熟度を達成するための重要なカギとなります。データチームは通常、最も関連性の高いデータセットを公開するため、意思決定、分析、およびデータモデルは、信頼できる1つののソースから確実に行われるようになります。一方で、その対極にあるデータアナリストや事業部門のユーザーは、質問やデータの回答から答えを抽出し、これらのデータセットを利用します。注意深く、意図を持って役割と責任を定義することは、組織が矛盾、冗長性、非効率を避けるのに役立ちます。
DataOpsのペルソナ
ここでは、データのライフサイクルに関わる最も一般的なプロフィール(別名:ペルソナ)を紹介します。
- データエンジニア: データエンジニアは、データを収集し、パイプラインを構築してソースシステムからデータストアに取り込み、アナリストやデータサイエンティストがデータにアクセスできるようにする役割を担っています。データのクレンジングと変換を行い、コアデータセットを公開します。クリーンで精選され、必要な人がアクセスできるデータをタイムリーに提供します。古くからあるデータ環境では、ETL(Extraction, Transformation, and Loading)の頭文字をとってETLと呼ばれます。
- データサイエンティスト: 統計学の知識を応用し、予測・処方モデルを構築します。一般的な環境はScala、Python、Rで、統計学以外にも、データマイニング、機械学習、深層学習などの専門家であることが多いです。例えば、金融業界では、数学に強いことから、伝統的に「クオンツ」と呼ばれています。
- データアナリス/ビジネスアナリスト: データの専門家で、通常、事業部門または機能部門(販売、マーケティングなど)に所属しています。 組織の運営方法、戦略目標、データが必要な場所や方法などに精通しており、ビジネス上の質問をデータクエリーに変換します。 エグゼクティブが目標を達成するために必要な情報や主要な指標を深く理解しています。フロントエンドBI(ビジネスインテリジェンス)ツールのエキスパートです。
- データプラットフォーム管理者: インフラが正常に動作し、十分な容量を確保し、インフラに依存している全ての部門に高品質のサービスを提供できるように管理します。トランザクション・データベース、データウェアハウス、データレイク、BIツールなどを担当します。さらに、アクセスポリシーの策定、インフラストラクチャーの管理、ライセンスコストの管理も行います。
- 事業部門データ利用者: データの最終的な利用者であり、通常、意思決定のためにデータを使用します。BIツールに依存し、データの内容に基づいて行動を起こす責任を負います。例えば営業リーダーは、営業活動に基づいて、特定の地域にもっと投資することを決定するかもしれません。マーケティング・マネジャーは、ROI指標に基づいて、特定のタイプのキャンペーンにキャンペーン資金を割り当てることを決定するかもしれません。
- チーフデータオフィサー: データチーム全体の運営を監督します。通常、CEO、CTO、場合によってはCIOに報告します。
PagerDutyのDataOpsプロセスにおけるステークホルダーたち
上の図は、PagerDutyのDataOpsプロセスにおいて、ステークホルダーを従来の責任範囲に配置したものです。組織によって重なる部分はさまざまでしょう。
PagerDutyのDataOps
PagerDutyでは、PagerDutyと数少ないテクノロジーパートナーを活用したDataOpsのプラクティスを実装しました。PagerDutyとDataOpsの原則を適用することで、私たちは以下のことを実現しました。
- 複数のデータウェアハウスからMuleSoft、Segment、Fivetran、Kafka、Sparkパイプラインのデータセットが格納されている1つのデータウェアハウスに移行し、1つの信頼できるソースに統合できます。
- 自動化とデータテクノロジーのパートナーシップを活用することで、複数のデータワークロードから得られるデータのSLAを満たせます。
- オブザーバビリティーを活用して、ユーザーが気づく前にデータを検出・解決し、インシデントを防げます。
- データチームのフォーカスを、管理業務からデータ駆動型のインサイトとデータサイエンスにシフトさせます。
- データ利用事例の急増に対応するためのデータ環境の将来性を高めます。 BIから新しい人工知能(AI)アプリケーションまで、複数の部署に所属する400人以上の社内ユーザーと数千人の顧客からの要求に対応するためです。
PagerDutyにおけるDataOpsの環境
上の図は、私たちのDataOps環境を構成するいくつかの主要なコンポーネントを描いたものです。 各組織のデータニーズやデータ環境はそれぞれ異なりますが、私たちの問題やアーキテクチャがそれほどユニークでないことはお分かりいただけるでしょう(複数のデータウェアハウス、複数のETLツール、厳しいSLA、データセットに対する膨大な要求など)。おそらく皆さんは、既にご自身のデータ環境とアーキテクチャーの類似点や、共有されている高レベルの問題をいくつか発見していることでしょう。
PagerDutyはDataOps環境でも活用できます
PagerDutyデジタルオペレーションプラットフォームは、データの問題が発生するとすぐにデータチームと下流のデータユーザーや消費者に警告を発し、データのダウンタイムを防ぎます。現在公開されている6つのDataOpsまたはデータ関連のインテグレーションをエコシステム内で発表できることをうれしく思います。これらのテクノロジーパートナーは、組織全体におけるデータパイプラインとデータ品質の問題を解決します。 コラボレーションを改善し、摩擦を減らし、アライメントを改善することでデータの失敗を減らします。
- Monte Carlo:エンドツーエンドのデータ観測性を提供し、データのダウンタイムを事前に解決します。
- Lightup : 企業がクラウドスケールで優れたデータ品質を達成できるよう支援します。
- Arize :機械学習(ML)モデルの問題を監視し、トラブルシューティングし、解決するための観測可能なプラットフォームです。
- WhyLabs:データとモデルの監視を提供することで、コストのかかるAIの失敗を防止します。
- Prefect:リアルタイムアラートによるデータパイプラインの構築と監視を提供します。
- Astronomer: パイプラインのリアルタイムデータ監視により、データのダウンタイムを削減します。
PagerDuty DataOpsエコシステム
最も重要なことは、これらの新しいDataOpsとPagerDutyの統合は、データパイプラインオーケストレーション、テストとプロダクション品質、デプロイの自動化、データサイエンス/MLモデル管理などの主要な領域をカバーしているということです。 PagerDutyとこれらのPagerDutyエコシステムテクノロジーパートナーを組み合わせることで、部門横断的なチーム間の緊密なコラボレーションを促進し、より少ないデータダウンタイムでより良く迅速な意思決定を達成できますので、是非お試しください。同様に、PagerDutyインテグレーションを構築しようと考えている場合は、開発者アカウントにサインアップして開始してください。
この記事はPagerDuty社のウェブサイトで公開されているものをDigital Stacksが日本語に訳したものです。無断複製を禁じます。原文はこちらです。