Eine neue Technologie ist dann ausgereift, wenn sie von einem „nice-to-have“ zu einem „must-have“ wird. Die Datenbeobachtung fällt in diese Kategorie. Sie dient den kritischen Anwendungsfällen der Erkennung von Anomalien für die Datenqualität und die Zuverlässigkeit der Datenpipeline.
Datenbeobachtung ist eine Schlüsselkomponente von DataOps, die darauf abzielt, die Geschwindigkeit und Qualität der Datenbereitstellung zu verbessern, die Zusammenarbeit zwischen IT- und Geschäftsteams zu verbessern und den mit der Datenverwaltung verbundenen Zeit- und Kostenaufwand zu reduzieren. DataOps hilft Unternehmen, datengestützte Entscheidungen schneller und sicherer zu treffen, da es ihnen eine einheitliche Sicht auf die Daten im gesamten Unternehmen bietet und sicherstellt, dass die Daten korrekt, aktuell und sicher sind.
Mit dem Eintritt in eine neue Ära, die von zwei großen Veränderungen geprägt ist – der Verlangsamung der Wirtschaft und dem Aufstieg von Datenprodukten – sind neue Anwendungsfälle für die Datenbeobachtung entstanden. Diese beziehen sich auf die Messung und Verbesserung der Unternehmensproduktivität (DataBizOps) und die Kontrolle der Kosten von Datenpipelines (DataFinOps).
Wir gehen davon aus, dass mit zunehmender Reife der Datenbeobachtung weitere Anwendungsfälle hinzukommen werden, z. B. die Überwachung und der Schutz der Datensicherheit, was zu einer umfassenden Metadatenplattform führen wird. Abbildung 1 zeigt den derzeitigen Umfang dieses Konzepts.
Dieses Papier konzentriert sich auf DataFinOps und DataBizOps.
Wozu brauchen wir DataFinOps?
Daten sind ein Opfer ihres eigenen Erfolgs. Daten werden nicht mehr als „Auspuff“ von Anwendungen verspottet, sondern sind zum Königsmacher geworden. Sie werden nicht mehr nur von einigen wenigen spezialisierten Analytikern genutzt, sondern von einer Vielzahl von Verbrauchern, die sie für immer neue Zwecke einsetzen. Darüber hinaus hat sich die durchschnittliche Anzahl der Datenquellen, die Daten generieren, ebenfalls deutlich erhöht. Stellen Sie sich vor, wir sind von ein paar Dutzend Datenquellen, wie ERP und CRM, die alle innerhalb unserer Firewalls liegen, zu einer Explosion von SaaS-Produkten übergegangen. Jüngste Studien zeigen, dass Unternehmen im Durchschnitt 110 SaaS-Produkte verwenden, und große Unternehmen haben jetzt fast 500.
Auf der einen Seite haben wir es mit einer größeren Anzahl von Datenquellen, mehr Datenkonsumenten und mehr Anwendungsfällen zu tun, aber auf der anderen Seite haben wir auch einen Ansturm neuer Tools und Anwendungen erlebt, die unsere Daten verarbeiten. Diese Tools sind nicht mehr auf unsere Firewall-geschützten Umgebungen beschränkt, sondern finden sich am Rande, in privaten und öffentlichen Clouds. Kurz gesagt, die Datenpipelines sind komplex und unhandlich geworden. Es versteht sich von selbst, dass die Unternehmen jetzt daran interessiert sind, die finanziellen Kennzahlen für den Aufbau und den Betrieb von Daten- und Analyse-Workloads zu verstehen.
Dieses Szenario ist die eigentliche Grundlage für die Entstehung des Raums der Datenbeobachtbarkeit. Dateningenieure überwachen die Daten und die Pipeline, um Probleme in Bezug auf Qualität und Zuverlässigkeit schnell zu erkennen und zu analysieren. Die Kosten für den Betrieb der Pipelines waren jedoch nie in ihrem Blickfeld. Bis jetzt.
Der wirtschaftliche Abschwung im Jahr 2023 hat den Technologiesektor am stärksten getroffen. Da die Infrastrukturkosten steigen, ist die Unternehmensleitung bestrebt, Prioritäten bei ihren Ausgaben zu setzen. Aber wie kann man Prioritäten setzen, ohne ein klares Verständnis der Kosten zu haben, die in den verschiedenen Stadien einer Datenpipeline anfallen? In der Vergangenheit schätzten Unternehmen ihr Budget und wiesen ihren neuen IT-Initiativen Investitionsausgaben (CAPEX) und Betriebsausgaben (OPEX) zu. Das Cloud Computing hat dieses Modell auf den Kopf gestellt, indem es die meisten Kosten auf die OPEX verlagert hat. Durch diese Verlagerung stellen viele Teams fest, dass das Geld, das sie für das gesamte Jahr vorgesehen hatten, bereits im ersten Quartal verbraucht wurde. Zusammenfassend lässt sich sagen, dass wir es jetzt mit zwei Problemen zu tun haben: steigende Kosten und unvorhersehbare Kosten.
Überraschenderweise haben Studien gezeigt, dass fast 30 % der Cloud-Kosten einfach verschwendet werden. Für ein Team, das überflüssige Kosten einsparen möchte, ist dies ein leichtes Unterfangen. Es ist relativ einfach, die Kostenmanagement-Tools der Cloud-Anbieter zu nutzen, um ungenutzte Instanzen zu identifizieren und sie abzuschalten. Schon dadurch lassen sich beträchtliche Summen an Kosten einsparen. Schwieriger wird es jedoch, Ineffizienzen bei komplexen SQL-Abfragen, ML-Training und Datenumwandlungs-Workloads zu erkennen. DataFinOps erfordert daher eine konzertierte Aktion.
Dateningenieure, die den „shift-left“-Ansatz verfolgen, können einen viel proaktiveren Ansatz zur Kostendämpfung verfolgen. Manchmal sind steigende Kosten ein Vorbote für falsche Daten oder Pipeline-Fehler. Der DataFinOps-Anwendungsfall der Datenbeobachtung ergänzt also die bekannteren Anwendungsfälle der Datenqualität und Pipeline-Zuverlässigkeit.
Zu den Fragen, die die DataFinOps-Funktionen Ihres Datenbeobachtungsprodukts aufdecken sollten, gehören:
- In welchen Teilen der Pipeline sind die Kosten höher als in der Vergangenheit?
- Wie wirkt sich eine Unterbrechung der Arbeiten aus, die die Kosten in die Höhe treibt?
- Wie sehen die Kostentrends aus, und wann werden wir das Budget überschreiten?
- Werden die Kosteneinsparungen die Kosten für die Anschaffung und den Betrieb des Datenbeobachtungstools ausgleichen?
- Wird es eine feinkörnige Aufschlüsselung der Kosten nach Aufträgen und deren Verbrauch ermöglichen?
Tools zur Datenbeobachtung haben es oft schwer, bei potenziellen Käufern Gehör zu finden, da es schwierig ist, eine klare Kapitalrendite (ROI) nachzuweisen. Der DataFinOps-Anwendungsfall ist ein einzigartiger Aspekt dieser Kategorie, da es einfacher ist, den ROI fast sofort zu berechnen.
Was ist DataFinOps?
Die FinOps Foundation hat Best Practices für das Cloud-Finanzmanagement (CFM) definiert. Wenn diese Grundsätze auf das Datenmanagement ausgedehnt werden, nennen wir es DataFinOps. Die Finanzmetriken werden wie Datenqualität und Leistungsmetriken verfolgt und überwacht. Und das System zur Beobachtung der Daten liefert Empfehlungen zur Verbesserung der Kosteneffizienz.
DataFinOps ist eine Reihe von Prozessen, die dazu dienen, die Kosten zu verfolgen, die im gesamten Datenstapel und bei verschiedenen Benutzern und Teams anfallen, mit dem Ziel, die Gesamtausgaben zu optimieren. Es bietet einen detaillierten Einblick in die Kostenentwicklung, idealerweise bevor sie sich auf Budgets und Prognosen auswirken. Mithilfe der Datenbeobachtungsfunktionen für Überwachung, Warnungen und Benachrichtigungen können proaktive Maßnahmen ergriffen werden, um sicherzustellen, dass die Datenpipelines effizient laufen.
Abbildung 2 zeigt die DataFinOps-Funktionen.
Wie die Abbildung zeigt, kann der Kostenverbrauch granular oder aggregiert sein:
- Ressourcenverbrauch, wie Snowflake, Databricks, Google BigQuery, Hadoop, Kafka, usw.
- Nutzung (Nutzer und Abteilungen), z. B. Geschäftsanalysten, Dateningenieure und Datenwissenschaftler
- Arbeitslasten, wie Datenvorbereitungspipeline, Datenqualität, Datenumwandlung oder Schulungsmodelle
Eine DataFinOps-Plattform sollte einen konsolidierten Satz von Funktionen bieten:
- Beobachtbarkeit (oder Entdeckung) der Kosten und Ausgaben mit der Möglichkeit, Kosten auf der Grundlage der gewünschten Taxonomie der Organisation zu kennzeichnen und zu kategorisieren. Die Benutzer sollten in der Lage sein, die Kosten genau zu verfolgen, zu visualisieren und zuzuordnen, wobei der Kontext der Arbeitsbelastung berücksichtigt wird.
- Zu den Optimierungsfunktionen gehören Budgetierung, Vorhersage und Rückverrechnung von Kosten. Sie helfen, Ineffizienzen zu beseitigen und Kosten zu optimieren. Die meisten Tools nutzen heute KI zur Vorhersage von Kapazitätsanpassungen und Automatisierung, um präventive Korrekturen auszulösen.
- Zu den Governance-Funktionen gehören Empfehlungen zu Kostensenkungsstrategien und ‑möglichkeiten. Sie helfen bei der Ermittlung von Leitplanken, die zur Kontrolle und Vermeidung von Kostenüberschreitungen erforderlich sind. Dies kann sich auf Infrastrukturressourcen, Konfiguration, Code oder Daten beziehen. So könnten beispielsweise Datensätze mit geringer Nutzung Kandidaten für die Migration auf eine kostengünstigere Speicherebene sein.
Wenn die Datenbeobachtung für Qualitäts- oder Pipeline-Zuverlässigkeitsanwendungen genutzt wird, sind die Personas Geschäftsanalysten, Dateningenieure oder Datenwissenschaftler. Für den Anwendungsfall DataFinOps waren die primären Personas in der Regel Führungskräfte, wie der Leiter des Cloud Center of Excellence oder der CIO. Diese Führungskräfte arbeiten mit Chief Data Officers (CDO) oder dem Leiter der Analyseabteilung zusammen, die für die Verwaltung der Datenbestände verantwortlich sind.
Interessanterweise wird die Steuerdisziplin nun auch auf Dateningenieure und Geschäftspartner übertragen. Mit dem Konzept der „Linksverschiebung“ werden die Kosten bei der Entwicklung neuer Anwendungen berücksichtigt. DataFinOps-Experten sorgen für eine Kultur der Finanzdisziplin und erleichtern die Zusammenarbeit zwischen Geschäfts‑, Technik‑, Betriebs- und Finanzteams. Sie helfen bei der Verbesserung der Cloud-Effizienz in verschiedenen Geschäftsteams durch Kosten- und Effizienzmetriken wie Ressourcenauslastung und Trendanalysen. FinOps wird somit zu einem Teil der Datenkompetenz und ‑kultur.
Herausforderungen von DataFinOps
Cloud Computing ist bekannt dafür, dass Berichte und Dashboards unendlich schneller entwickelt werden können. Innerhalb einer Minute können wir ein virtuelles Lager in Snowflake aufsetzen und die Daten mit dem Zero Copy Clone analysieren. Ebenso können wir Terraform verwenden, um Cloud-Ressourcen bei Bedarf zu starten. Diese Einfachheit führt jedoch zu einem komplexen Netz von Cloud-Kosten.
Nehmen Sie das Beispiel von Accenture, wo über 1.000 Teams AWS nutzen. Seine Cloud-Rechnung beläuft sich auf zig Millionen Zeilen mit Rechnungsdaten. Der Grund dafür ist, dass es in der Cloud so viele Kostenelemente gibt, wie z. B. Recheninstanzen, Rechentransaktionen, Speicher, Speicher‑E/A, Datenübertragung, Support, Netzwerke, Überwachung, Notfallwiederherstellung und verschiedene andere Kosten.
Der zweite Grund für die Kostenkomplexität ist die enorme Ausweitung der Auswahlmöglichkeiten in der Cloud. Im Februar 2023 bietet AWS beispielsweise 536 Instanztypen unter Linux und 427 unter Windows an. Dies führt zu der Herausforderung, die Gesamtbetriebskosten (TCO) und den ROI der Cloud zu berechnen. Daher wird ein automatisiertes Tool, wie z. B. Datenbeobachtung, benötigt.
Eine weitere Herausforderung im Bereich der Daten ist das fehlende Eigentum an den Daten. Da die Daten vom Erzeuger kommen und verschiedene Umwandlungsschritte durchlaufen, ist unklar, wer der Eigentümer der Daten ist. Dieser Mangel an Eigentum führt zu einem Mangel an Verantwortlichkeit für Kostenüberschreitungen.
Schließlich erlauben Cloud-Anbieter die Einrichtung von Warnmeldungen, doch bis der Administrator Maßnahmen ergreifen kann, ist der Schaden manchmal schon angerichtet, und die hohen Kosten für die fehlerhafte Abfrage werden nun auf uns abgewälzt. Daher wird ein proaktives DataFinOps-Produkt benötigt. Dieses Tool sollte auch Warnungen intelligent verwalten und das Problem der „Warnmüdigkeit“ vermeiden.
Einführung in DataBizOps
Wie in der ersten Abbildung in diesem Dokument zu sehen ist, besteht der Zweck von DataBizOps darin, den Wert unserer Datenbestände zu demonstrieren. Es handelt sich um eine Reihe von Metriken, die bei der Berechnung der Produktivität und der Kostensenkung helfen. So kann ein Unternehmen beispielsweise Hunderte von Datenartefakten erstellt haben – Berichte, Dashboards, Ansichten usw. Durch die Analyse ihrer Nutzung können Unternehmen jedoch die gesamte Reihe von Prozessen, die zu ungenutzten Artefakten führen, aufgeben und Kosten sparen.
Der jüngste Anwendungsfall der Datenbeobachtung, DataBizOps, steht oft im Zusammenhang mit dem Anstieg der Erstellung von Datenprodukten. „Daten als Produkt“ wurde als eines der vier Prinzipien der Datenverflechtung eingeführt, während Datenprodukte dieses Prinzip in konsumierbare, auf das Geschäftsergebnis ausgerichtete Einheiten wie Berichte, Dashboards, Tabellen, Ansichten, ML-Modelle oder Metriken umsetzen. DataBizOps sammelt „Datentelemetrie“, z. B. die Häufigkeit von Datenproduktveröffentlichungen, die Nutzung von Datenprodukten und Anomalien bei der Nutzung, die zu anderen Indikatoren, z. B. schlechter Datenqualität, führen können.
Datenprodukte verfolgen einen geschäftsorientierten Ansatz, im Gegensatz zu der vorherrschenden technologiezentrierten Ausrichtung bei der Erstellung von Datenartefakten. In der Tat kann dieser Ansatz dazu beitragen, einige Herausforderungen und Frustrationen des modernen Datenstapels zu verringern. Zum Beispiel beinhaltet die Bereitstellung von Ergebnissen derzeit eine mühsame und komplexe Sammlung von Pipelines, die zu erhöhten Kosten, Aufwand und Zeit führen. Diese schwer zu debuggenden Prozesse verursachen Probleme mit der Zuverlässigkeit und den Ausfallzeiten und erfordern daher eine Beobachtung der Daten. Ein weiteres Beispiel ist die schlechte Akzeptanz von Datenkatalogen, da wir zunächst versuchen, alle verfügbaren Daten zu sammeln und zu kennzeichnen. Dieser Ansatz scheitert oft und verringert das Vertrauen in die Data-Governance-Initiative. Wenn wir stattdessen die Daten für die zu erstellenden Datenprodukte katalogisieren, haben wir eine bessere Chance auf ein erfolgreiches Data-Governance-Ergebnis.
Was ist also die Rolle von DataBizOps?
DataBizOps kann dabei helfen, den ROI von Daten anhand von Kennzahlen zu ermitteln, wie z. B. die Anzahl der erreichten datenbezogenen Ziele und der Grad der Zustimmung von Datenkonsumenten und Management. Es kann dazu beitragen, die Datenstrategie innerhalb des Unternehmens zu unterstützen. Das Beste daran ist, dass die Datenstrategie jetzt von der Geschäftsstrategie bestimmt wird. Sie können perfekt aufeinander abgestimmt werden, so dass das Potenzial der Unternehmensdaten optimal genutzt werden kann.
Ein Unternehmen kann von DataBizOps profitieren:
- Starten Sie einen Datenmarktplatz und erheben Sie Kennzahlen, die sicherstellen, dass die Daten für den beabsichtigten Zweck, von den beabsichtigten Nutzern und innerhalb der festgelegten Leitplanken verwendet werden. DataBizOps kann die Data-Governance-Bemühungen der Datenproduzenten ergänzen, indem es sie auf die gemeinsame Nutzung und den Austausch von Daten ausweitet.
- Stärkung der DataOps-Prozesse durch Bereitstellung der erforderlichen Telemetrie, damit intelligente Entscheidungen für Automatisierung, Tests und Orchestrierung getroffen werden können. Heute sind viele der Orchestratoren regelbasiert und verhalten sich wie eine komplexe Sammlung von CASE-Anweisungen. DataBizOps kann jedoch kontextbezogene Informationen liefern, so dass die Orchestratoren eine feinkörnige Bewertung der nächsten Schritte vornehmen können.
Dies ist ein kurzer Überblick über das Potenzial der DataBizOps-Funktionen für die Datenbeobachtung. Obwohl einige Anbieter eigenständige Produkte entwickeln, um die oben genannten Funktionen bereitzustellen, sollte dies Teil eines umfassenden Produkts zur Datenbeobachtung sein.
Zusammenfassung
DataFinOps bezieht sich auf eine Reihe von Praktiken, Prozessen und Technologien, die zur Bewertung und Verwaltung der Kosten der Datenbestände eines Unternehmens eingesetzt werden. Es zielt darauf ab, einen rationalisierten und effizienten Ansatz für die Verwaltung des Datenlebenszyklus zu bieten, von der Erfassung und Speicherung bis hin zur Analyse und Entscheidungsfindung. Wie die Fallstudien zeigen, trägt es zur Kostensenkung und Effizienzsteigerung bei.
DataBizOps ist das neueste Mitglied im Bereich der Datenbeobachtbarkeit. Es hat das Potenzial, endlich den ROI von Daten zu ermitteln.
Zum Abschluss dieses Kapitels sollten wir anmerken, dass die verschiedenen Anwendungsfälle von Metadaten, wie bereits erwähnt, in einer gemeinsamen Metadatenebene vereint werden sollten. Diese Anwendungsfälle sind in Abbildung 3 dargestellt.
DataFinOps- und DataBizOps-Metriken können dazu beitragen, die gesamten Metadatenmanagement-Initiativen zu integrieren, so dass unsere Assets eine hohe Qualität, Zuverlässigkeit und Sicherheit aufweisen und die Entwickler produktiver sind. Eine umfassende, auf Metriken basierende Metadatenverwaltungsebene kann die Rolle des Dateningenieurs von einer reaktiven zu einer proaktiven verändern. Darüber hinaus werden die Datenteams in den Rest des Unternehmens integriert und erfüllen die strategischen Anforderungen. Dies wird dazu beitragen, dass sich die Datenbeobachtung in einer Umgebung durchsetzt, in der die Daten und die Daten- und Analyselast ständig explodieren.
Die einheitliche Metadatenebene wird Metadatensilos vermeiden. Mit der Entwicklung gemeinsamer Metadatenstandards wird diese Vision zur Realität.
Quelle: medium.com