Aufbau einer Datenplattform im Jahr 2024

Was hat sich verändert?

Seit 2021 lautet die Frage vielleicht besser: Was hat sich nicht verändert?

Nachdem wir aus dem Schatten von COVID herausgetreten sind, hat sich unsere Gesellschaft mit einer Vielzahl von Herausforderungen auseinandergesetzt – politische und soziale Turbulenzen, schwankende Finanzmärkte, der rasante Fortschritt bei der künstlichen Intelligenz und Taylor Swift als größter Star der National Football League!?

In den letzten drei Jahren hat sich auch mein Leben verändert. Ich habe mich mit den Datenherausforderungen verschiedener Branchen auseinandergesetzt und mein Fachwissen durch Arbeit und Beratung sowohl bei großen Unternehmen als auch bei wendigen Start-ups eingebracht.

Gleichzeitig habe ich erhebliche Anstrengungen unternommen, um meine Identität als Data Educator zu entwickeln und mit einigen der renommiertesten Unternehmen und angesehenen Universitäten weltweit zusammengearbeitet.

Im Folgenden finden Sie eine kurze Auflistung dessen, was mich dazu inspiriert hat, einen Nachtrag zu meinem ursprünglichen Artikel aus dem Jahr 2021 zu schreiben:

Maßstab

Unternehmen, ob groß oder klein, erreichen allmählich einen Datenumfang, der bisher nur Netflix, Uber, Spotify und anderen Giganten vorbehalten war, die einzigartige Dienste mit Daten erstellen. Das einfache Zusammenschustern von Datenpipelines und Cron-Jobs über verschiedene Anwendungen hinweg funktioniert nicht mehr, sodass neue Überlegungen angestellt werden müssen, wenn es um skalierbare Datenplattformen geht.

Streaming

Obwohl ich das Streaming in meinem Artikel von 2021 kurz erwähnt habe, wird es in der Version von 2024 erneut im Mittelpunkt stehen. Ich bin der festen Überzeugung, dass sich Daten mit der Geschwindigkeit des Geschäfts bewegen müssen, und die einzige Möglichkeit, dies in der heutigen Zeit wirklich zu erreichen, ist das Streaming von Daten.

Orchestrierung

In meinem Artikel aus dem Jahr 2021 habe ich die Modularität als ein Kernkonzept für den Aufbau einer modernen Datenplattform erwähnt, aber ich habe es versäumt, die Bedeutung der Datenorchestrierung zu betonen. Diesmal habe ich einen ganzen Abschnitt der Orchestrierung gewidmet und erkläre, warum sie sich als natürliche Ergänzung zu einem modernen Daten-Stack entwickelt hat.

Die Plattform

Zu meiner Überraschung gibt es immer noch keine Lösung eines einzelnen Anbieters, die den gesamten Datenbereich abdeckt, obwohl Snowflake durch Akquisitionen und Entwicklungsbemühungen (Snowpipe, Snowpark, Snowplow) sein Bestes gegeben hat. Databricks hat ebenfalls bemerkenswerte Verbesserungen an seiner Plattform vorgenommen, insbesondere im Bereich ML/AI.

Alle Komponenten aus den Artikeln von 2021 wurden 2024 übernommen, aber selbst die bekannten Einträge sehen drei Jahre später ein wenig anders aus:

Quelle
Integration
Datenspeicher
Umwandlung
Orchestrierung
Darstellung
Transport
Beobachtbarkeit

Integration

Die Kategorie Integration erhält 2024 die größte Aufwertung und wird in drei logische Unterkategorien aufgeteilt:

Batch
Streaming
Eventing

Batch

Die Fähigkeit, eingehende Datensignale aus verschiedenen Quellen in einem täglichen/stündlichen Intervall zu verarbeiten, ist das A und O einer jeden Datenplattform.

Streaming

Kafka/Confluent ist der König, wenn es um Daten-Streaming geht, aber die Arbeit mit Streaming-Daten bringt eine Reihe neuer Überlegungen mit sich, die über Themen, Produzenten, Konsumenten und Broker hinausgehen, z. B. Serialisierung, Schema-Registrierungen, Stream-Verarbeitung/Transformation und Streaming-Analytik.

Confluent leistet gute Arbeit, indem es alle Komponenten, die für erfolgreiches Daten-Streaming erforderlich sind, unter einem Dach vereint, aber ich werde auf Streaming-Überlegungen in anderen Schichten der Datenplattform hinweisen.

Die Einführung von Daten-Streaming erfordert nicht zwangsläufig eine komplette Überarbeitung der Struktur der Datenplattform. Vielmehr ist die Synergie zwischen Batch- und Streaming-Pipelines entscheidend für die Bewältigung der verschiedenen Herausforderungen, die sich Ihrer Datenplattform im großen Maßstab stellen. Der Schlüssel zur nahtlosen Bewältigung dieser Herausforderungen liegt, wie nicht anders zu erwarten, in der Datenorchestrierung.

Eventing

In vielen Fällen muss die Datenplattform selbst für die Generierung von First-Party-Daten verantwortlich sein oder sie zumindest informieren. Viele könnten argumentieren, dass dies eine Aufgabe für Softwareingenieure und App-Entwickler ist, aber ich sehe eine synergetische Chance darin, dass die Leute, die Ihre Datenplattform aufbauen, auch für Ihre Eventing-Strategie verantwortlich sind.

Ich unterscheide Eventing in zwei Kategorien:

Änderungsdatenerfassung – CDC

Der Grundgedanke von CDC ist die Verwendung der CRUD-Befehle Ihrer Datenbank als Datenstrom selbst. Die erste CDC-Plattform, auf die ich gestoßen bin, war ein OSS-Projekt namens Debezium, und es gibt viele große und kleine Anbieter, die um einen Platz in dieser neuen Kategorie wetteifern.

Klickströme – Segment/Snowplow

Die Erstellung von Telemetriedaten zur Erfassung von Kundenaktivitäten auf Websites oder Anwendungen bezeichne ich als Click Streams. Segment ritt die Click-Stream-Welle zu einer milliardenschweren Übernahme, Amplitude baute Click-Streams in eine komplette Analyseplattform ein, und Snowplow hat in letzter Zeit mit seinem OSS-Ansatz einen Aufschwung erlebt, was zeigt, dass dieser Bereich reif für weitere Innovationen und eine eventuelle Standardisierung ist.

AWS ist führend im Bereich Daten-Streaming und bietet Vorlagen zur Einrichtung des Outbox-Musters und zur Entwicklung von Daten-Streaming-Produkten wie MSK, SQS, SNS, Lambdas, DynamoDB und anderen.

Data Store
Eine weitere bedeutende Änderung von 2021 bis 2024 liegt in der Verschiebung von „Data Warehouse“ zu „Data Store“, womit dem erweiterten Datenbankhorizont Rechnung getragen wird, einschließlich der Zunahme von Data Lakes.

Die Betrachtung von Data Lakes als Strategie und nicht als Produkt unterstreicht ihre Rolle als Staging-Bereich für strukturierte und unstrukturierte Daten, die möglicherweise mit Data Warehouses interagieren. Die Auswahl der richtigen Datenspeicherlösung für jeden Aspekt des Data Lake ist von entscheidender Bedeutung, aber die übergreifende Technologieentscheidung beinhaltet die Verknüpfung und Erkundung dieser Speicher, um Rohdaten in nachgelagerte Erkenntnisse zu verwandeln.

Verteilte SQL-Engines wie Presto, Trino und ihre zahlreichen verwalteten Gegenstücke (Pandio, Starburst) sind aufgetaucht, um Data Lakes zu durchqueren und es den Benutzern zu ermöglichen, SQL zu verwenden, um verschiedene Daten über verschiedene physische Standorte hinweg zu verbinden.

Um mit den Trends zu generativer KI und Large Language Model Schritt zu halten, sind spezialisierte Datenspeicher wie Vektordatenbanken unerlässlich. Dazu gehören Open-Source-Optionen wie Weaviate, verwaltete Lösungen wie Pinecone und viele andere.

Transformationen

Nur wenige Tools haben das Data Engineering so revolutioniert wie dbt. Seine Auswirkungen waren so tiefgreifend, dass es eine neue Rolle im Datenbereich hervorgebracht hat – den Analytikingenieur.

dbt ist zur ersten Wahl für Unternehmen jeder Größe geworden, die ihre Datenplattformen automatisiert transformieren wollen. Die Einführung von dbt core, der kostenlosen Version des dbt-Produkts, hat entscheidend dazu beigetragen, Dateningenieure und Analysten mit dbt vertraut zu machen, die Akzeptanz zu erhöhen und die rasche Entwicklung neuer Funktionen voranzutreiben.

Unter diesen Funktionen sticht dbt mesh besonders hervor. Diese Innovation ermöglicht die Verknüpfung und Referenzierung mehrerer dbt-Projekte und versetzt Unternehmen in die Lage, ihre Datentransformationspipelines zu modularisieren und insbesondere die Herausforderungen von Datentransformationen in großem Maßstab zu bewältigen.

Stream-Transformationen sind im Vergleich dazu ein weniger ausgereifter Bereich. Es gibt zwar etablierte und zuverlässige Open-Source-Projekte wie Flink, das seit 2011 existiert, aber ihre Wirkung ist nicht so groß wie bei Tools, die sich mit „ruhenden“ Daten befassen, wie dbt. Mit der zunehmenden Zugänglichkeit von Streaming-Daten und der fortschreitenden Entwicklung von Rechenressourcen wird es jedoch immer wichtiger, den Bereich der Stream-Transformationen voranzutreiben.

Meiner Meinung nach hängt die Zukunft einer breiten Akzeptanz in diesem Bereich von Technologien wie Flink SQL oder neuen verwalteten Diensten von Anbietern wie Confluent, Decodable, Ververica und Aiven ab. Diese Lösungen ermöglichen es Analysten, eine vertraute Sprache wie SQL zu nutzen und diese Konzepte auf Echtzeit-Datenströme anzuwenden.

Orchestrierung

Die Überprüfung der Komponenten Ingestion, Data Store und Transformation beim Aufbau einer Datenplattform im Jahr 2024 verdeutlicht die gewaltige Herausforderung der Auswahl zwischen einer Vielzahl von Tools, Technologien und Lösungen.

Meiner Erfahrung nach liegt der Schlüssel zum Finden der richtigen Iteration für Ihr Szenario im Experimentieren, das Ihnen erlaubt, verschiedene Komponenten auszutauschen, bis Sie das gewünschte Ergebnis erzielen.

Die Datenorchestrierung ist für die Erleichterung dieser Experimente in der Anfangsphase des Aufbaus einer Datenplattform entscheidend geworden. Sie rationalisiert nicht nur den Prozess, sondern bietet auch skalierbare Optionen zur Anpassung an die Entwicklung jedes Unternehmens.

Die Orchestrierung wird in der Regel über gerichtete azyklische Graphen (DAGs) oder Code ausgeführt, der Hierarchien, Abhängigkeiten und Pipelines von Aufgaben über mehrere Systeme hinweg strukturiert. Gleichzeitig verwaltet und skaliert es die Ressourcen, die zur Ausführung dieser Aufgaben verwendet werden.

Airflow ist nach wie vor die führende Lösung für die Datenorchestrierung und in verschiedenen verwalteten Varianten wie MWAA, Astronomer und inspirierenden Ablegern wie Prefect und Dagster erhältlich.

Ohne eine Orchestrierungs-Engine ist die Fähigkeit, Ihre Datenplattform zu modularisieren und ihr volles Potenzial auszuschöpfen, begrenzt. Darüber hinaus dient sie als Voraussetzung für die Einführung einer Strategie zur Datenbeobachtung und ‑steuerung, die eine entscheidende Rolle für den Erfolg der gesamten Datenplattform spielt.

Darstellung

Überraschenderweise dominieren traditionelle Datenvisualisierungsplattformen wie Tableau, PowerBI, Looker und Qlik weiterhin das Feld. Während die Datenvisualisierung anfangs ein schnelles Wachstum erlebte, stagnierte der Bereich in den letzten zehn Jahren relativ stark. Eine Ausnahme von diesem Trend bildet Microsoft mit seinen lobenswerten Bemühungen um Relevanz und Innovation, die durch Produkte wie PowerBI Service veranschaulicht werden.

Aufstrebende Datenvisualisierungsplattformen wie Sigma und Superset scheinen die natürliche Brücke in die Zukunft zu sein. Sie ermöglichen ressourceneffiziente On-the-Fly-Transformationen zusammen mit erstklassigen Datenvisualisierungsfunktionen. Ein starker Neuling, Streamlit, hat jedoch das Potenzial, alles neu zu definieren.

Streamlit, eine leistungsstarke Python-Bibliothek zur Erstellung von Front-End-Schnittstellen für Python-Code, hat sich eine wertvolle Nische in der Präsentationsschicht geschaffen. Obwohl die technische Lernkurve im Vergleich zu Drag-and-Drop-Tools wie PowerBI und Tableau steiler ist, bietet Streamlit unendliche Möglichkeiten, darunter interaktive Designelemente, dynamisches Slicing, die Anzeige von Inhalten sowie benutzerdefinierte Navigation und Branding.

Streamlit ist so beeindruckend, dass Snowflake das Unternehmen im Jahr 2022 für fast 1 Milliarde US-Dollar übernommen hat. Wie Snowflake Streamlit in seine Angebotspalette integriert, wird wahrscheinlich die Zukunft von Snowflake und der Datenvisualisierung insgesamt bestimmen.

Transport

Transport, Reverse ETL oder Datenaktivierung – die letzte Etappe der Datenplattform – stellt die entscheidende Phase dar, in der die Transformationen und Erkenntnisse der Plattform in die Quellsysteme und ‑anwendungen zurückfließen und die Geschäftsabläufe wirklich beeinflussen.

Derzeit ist Hightouch in diesem Bereich führend. Ihr robustes Kernangebot integriert nahtlos Data Warehouses mit datenintensiven Anwendungen. Insbesondere die strategischen Partnerschaften mit Snowflake und dbt unterstreichen das Bestreben, als vielseitiges Datenwerkzeug anerkannt zu werden, das sich von reinen Marketing- und Vertriebswidgets unterscheidet.

Die Zukunft der Transportschicht scheint dazu bestimmt zu sein, sich mit APIs zu kreuzen und ein Szenario zu schaffen, in dem API-Endpunkte, die über SQL-Abfragen generiert werden, ebenso üblich werden wie der Export von .csv-Dateien zum Austausch von Abfrageergebnissen. Obwohl dieser Wandel absehbar ist, gibt es nur wenige Anbieter, die sich mit der Kommodifizierung dieses Bereichs befassen.

Beobachtbarkeit

Ähnlich wie bei der Datenorchestrierung hat sich die Beobachtbarkeit von Daten als Notwendigkeit herausgestellt, um alle von den verschiedenen Komponenten einer Datenplattform erzeugten Metadaten zu erfassen und zu verfolgen. Diese Metadaten werden dann zur Verwaltung, Überwachung und Förderung des Wachstums der Plattform verwendet.

Viele Unternehmen gehen die Datenbeobachtung an, indem sie interne Dashboards erstellen oder sich bei der Beobachtung auf einen einzigen Schwachpunkt, wie die Datenorchestrierung, verlassen. Dieser Ansatz mag zwar für die grundlegende Überwachung ausreichen, ist aber bei der Lösung komplizierterer logischer Beobachtungsherausforderungen, wie der Verfolgung des Datenverlaufs, unzureichend.

Hier kommt DataHub ins Spiel, ein populäres Open-Source-Projekt, das zunehmend an Bedeutung gewinnt. Sein Gegenstück, der verwaltete Dienst Acryl, hat seine Wirkung noch verstärkt. DataHub zeichnet sich durch die Konsolidierung von Metadaten aus verschiedenen Anwendungen aus, die an der Datenbewegung in einem Unternehmen beteiligt sind. Es verknüpft diese Informationen nahtlos miteinander und ermöglicht es den Benutzern, KPIs auf einem Dashboard bis zur ursprünglichen Datenpipeline und jedem Schritt dazwischen zurückzuverfolgen.

Monte Carlo und Great Expectations spielen eine ähnliche Rolle bei der Beobachtung von Datenplattformen, allerdings mit einem stärker meinungsbetonten Ansatz. Die wachsende Popularität von Begriffen wie „End-to-End Data Lineage“ und „Data Contracts“ deutet auf einen bevorstehenden Aufschwung in dieser Kategorie hin. Wir können ein signifikantes Wachstum sowohl von etablierten Marktführern als auch von innovativen Newcomern erwarten, die bereit sind, die Perspektiven der Datenbeobachtung zu revolutionieren.

Fazit

Der Aufbau einer Plattform, die schnell genug ist, um die Anforderungen von heute zu erfüllen, und flexibel genug, um mit den Anforderungen von morgen zu wachsen, beginnt mit Modularität und wird durch Orchestrierung ermöglicht. Um die innovativste Lösung für Ihr spezifisches Problem zu übernehmen, muss Ihre Plattform Platz für Datenlösungen aller Formen und Größen bieten, egal ob es sich um ein OSS-Projekt, einen neuen verwalteten Dienst oder eine Produktreihe von AWS handelt.

Dieser Artikel enthält viele Ideen, aber letztlich liegt die Entscheidung bei Ihnen. Ich bin gespannt darauf, wie dieser Artikel Menschen dazu inspiriert, neue Möglichkeiten zu erkunden und neue Wege zur Lösung von Problemen mit Daten zu finden.

Quelle: medium.com

Akzeptieren
Name	YouTube
Anbieter	Google LLC
Zweck	Diese Webseite verwendet Youtube zu Marketingzwecken. Die Daten werden an einen Server in den USA übertragen und dort gespeichert. Die personenbezogenen Daten werden auf Grundlage des Art. 46 und/oder Art. 49 Abs. 1 lit. a) DSGVO übermittelt.
Laufzeit	Daten werden gelöscht, sobald sie für die Bearbeitung nicht mehr benötigt werden.
Weiterführende Infos	https://policies.google.com/privacy

Akzeptieren
Name	hellotrust
Anbieter	Keyed GmbH
Zweck	hellotrust speichert den Zustimmungsstatus des Benutzers für Cookies auf der aktuellen Domain.
Laufzeit	Daten werden gelöscht, sobald sie für die Bearbeitung nicht mehr benötigt werden.
Weiterführende Infos	https://hellotrust.de/datenschutz

Akzeptieren
Name	Google Analytics
Anbieter	Google LLC
Zweck	Diese Webseite verwendet Google Analytics zur Analyse der Websitebenutzung durch Nutzer. Die Daten werden an einen Server von Google in den USA übertragen und dort gespeichert. Die personenbezogenen Daten werden auf Grundlage des Art. 46 und/oder Art. 49 Abs. 1 lit. a) DSGVO übermittelt.
Laufzeit	Daten werden gelöscht, sobald sie für die Bearbeitung nicht mehr benötigt werden. In der Regel werden die Cookies von Google für eine Dauer von 2 Jahren gespeichert.
Weiterführende Infos	https://policies.google.com/privacy