Die 3 wichtigsten Trends in der Datenarchitektur

1. Kostenoptimierung durch Co-Piloten

Ich bin ein großer Fan von Co-Piloten, die dem Endbenutzer helfen, seine Aufgaben effizient zu erledigen.

Als regelmäßiger Nutzer von Grammarly weiß ich es zu schätzen, wie es den Bearbeitungsprozess von schriftlichen Inhalten aller Art beschleunigt. In ähnlicher Weise werden Co-Piloten bei den meisten unserer Arbeiten die Hauptrolle spielen, auch bei der Datenarchitektur.

Zu den täglichen Aufgaben eines Datenarchitekten gehören Aspekte des Datenmodelldesigns, die Festlegung von Standards und die Implementierung von Governance-Strukturen. Co-Piloten wie Microsoft können dabei helfen, Sätze in einer E‑Mail zu vervollständigen und Ankündigungen auf der Grundlage von Spezifikationsdokumenten zu erstellen. In ähnlicher Weise kann ein Co-Pilot für einen Datenarchitekten Entity-Relationship-Diagramme (ERD) erstellen, die ausschließlich auf Benutzeranforderungen basieren, indem er Ihre Design-Einschränkungen versteht. Co-Piloten können an der Seite des Architekten arbeiten und dessen täglichen Prozess beschleunigen.

Es sollte nicht überraschen, dass Unternehmen nach Möglichkeiten zur Kostenoptimierung suchen, wenn die Produktivität in die Höhe schnellt. Einige Schätzungen gehen davon aus, dass Tausende, wenn nicht gar Millionen von Arbeitsplätzen betroffen sein werden.

2. Kontextabhängige Analytik

Mit der Cloud haben wir zwar das Speicherproblem gelöst, aber wir müssen immer noch das Kontextproblem lösen. Daten sind an und für sich nur eine Reihe von Texten/Zahlen; der Wert wird erst dann deutlich, wenn man ihnen einen Kontext hinzufügt. Und „Datenkontext“ ist eine milliardenschwere Industrie.

Der Datenkontext umfasst geschäftliche oder technische Metadaten, Governance- oder Datenschutzanforderungen sowie Zugänglichkeits- oder Sicherheitsanforderungen. Obwohl sich diese Branche bis 2028 verdoppeln soll, frage ich mich, wie viel von diesem Wachstum von den LLMs genutzt werden wird. Mit Hilfe von Semantischen Einbettungen und Vektordatenbanken werden Unternehmen beispielsweise in der Lage sein, Daten schnell zu kontextualisieren, ohne umfangreiche Datenkontext-Tools implementieren zu müssen. Wenn ich mit Embeddings Anomalien erkennen kann, brauche ich dann einen umfassenden Governance-Rahmen? Dies unterstreicht Punkt 1 der weiteren Kostenoptimierung durch LLMs.

Die Einbettung (Wortspiel beabsichtigt!) von KI in die Datenpipelines, ‑transformationen und ‑linien kann dabei helfen, einen Kontext aufzubauen. Und auf diesen Kontext kann man sich verlassen, um Fragen der Endnutzer für Analysen oder regulatorische Anforderungen zu beantworten. Enthalten diese Daten zum Beispiel personenbezogene Informationen? Wenn ja, können Sie sie aus bestimmten Analysefällen herausfiltern.

Das Bild verdeutlicht, wie eine Kontextebene Informationen wie ein herkömmlicher Datenkatalog erfasst, mit dem Unterschied, dass sie die Leistung von LLMs nutzt und menschliche Eingriffe drastisch reduziert.

Der Kontext macht die Daten wertvoll; er kann mit LLMs schneller erreicht werden.

3. Einführung von Datenarchitektur-Ökosystemen

Wir haben genug von isolierten und disparaten Architekturen. Eine Architektur, bei der die Governance-Tools nicht in den Data Lake integriert sind, das Quellsystem nicht für die Analyse konzipiert ist oder mehrere Quellen der Wahrheit existieren.

Das Ökosystem muss das Angebot von Verbraucherunternehmen wie Apple widerspiegeln. Ein Schlüsselprodukt mit verschiedenen unterstützenden, zusammensetzbaren Produkten, die einzeln nützlich sind, aber zusammen ein überwältigendes Ökosystem bilden. Ein Beispiel: Ein Datenproduktmarktplatz (iPhone) zeigt Informationen aus dem Datenbeobachtungsrahmen (Watch) an und wird durch eine einzige Zugangsmethode (Face ID) gesteuert. Die Datenarchitektur wird sich in einem Ökosystem befinden, in dem die Integration keine Schwäche mehr darstellt. Und das wird ein entscheidender Faktor sein.

Ein Ökosystem wird auch das Risiko der Informationsredundanz über verschiedene Quellen hinweg verringern (wie die Synchronisierung Ihrer iMessages über alle Ihre Geräte hinweg). Es gibt bereits Start-ups, die dies mit Konzepten wie OBT (One Big Table) revolutionieren wollen. Ökosysteme bedeuten auch Datendefinitionen; Standards werden einmal festgelegt und in jedem Bereich weitergegeben, wodurch die Kosten für die Replikation gesenkt werden.

Eine Kundentransaktionstabelle beispielsweise erfasst Informationen aus dem CRM-System; das CRM ist standardmäßig so konzipiert, dass es die für Analysen erforderlichen Pflichtfelder erfasst [1]. Sobald die Daten übertragen sind, werden sie einer Reihe von Datenqualitätsprüfungen unterzogen, um ihre Zweckmäßigkeit zu gewährleisten [2]. Nach der Umwandlung werden die Abgleichsinformationen erfasst, um sicherzustellen, dass die Daten nicht verloren gegangen sind [3]. Vor der Verwendung werden sie in persönliche Datenbereiche eingeteilt, und es werden geeignete Kontrollmechanismen festgelegt [4]. All diese Prozesse sind an sich schon wichtig, aber sie sind noch viel leistungsfähiger: Wenn die Daten schließlich produktiv gemacht werden, können Sie [1] – [4] für diesen Datensatz visualisieren und diesen Daten wiederum vertrauen.

Fazit

Als ob der Modern Data Stack nicht schon seinen eigenen Hype hätte, müssen wir uns jetzt auch noch mit dem Hype um GenAI auseinandersetzen. Es wird interessant sein zu sehen, wie sich diese Trends in den nächsten 12–18 Monaten entwickeln werden. Ich gehe davon aus, dass Unternehmen, die bereits in die Grundlagen investiert haben, von diesen Trends profitieren werden, während diejenigen, die nicht in Datenqualität oder Governance investiert haben, kontinuierlich hinterherhinken werden.

Die Grundvoraussetzung für all diese Trends sind gute Daten. Ohne gute Daten kann man keine Co-Piloten einsetzen, keinen Kontext hinzufügen oder eine effektive Datenarchitektur aufbauen. Dies ist eine der schwierigsten Aufgaben, die zu bewältigen ist, aber folglich auch der größte ROI.

Erfahren Sie hier mehr über Lösungen im Bereich Datenarchitektur oder besuchen Sie eines unserer kostenlosen Webinare.

Quelle: medium.com

Akzeptieren
Name	YouTube
Anbieter	Google LLC
Zweck	Diese Webseite verwendet Youtube zu Marketingzwecken. Die Daten werden an einen Server in den USA übertragen und dort gespeichert. Die personenbezogenen Daten werden auf Grundlage des Art. 46 und/oder Art. 49 Abs. 1 lit. a) DSGVO übermittelt.
Laufzeit	Daten werden gelöscht, sobald sie für die Bearbeitung nicht mehr benötigt werden.
Weiterführende Infos	https://policies.google.com/privacy

Akzeptieren
Name	hellotrust
Anbieter	Keyed GmbH
Zweck	hellotrust speichert den Zustimmungsstatus des Benutzers für Cookies auf der aktuellen Domain.
Laufzeit	Daten werden gelöscht, sobald sie für die Bearbeitung nicht mehr benötigt werden.
Weiterführende Infos	https://hellotrust.de/datenschutz

Akzeptieren
Name	Google Analytics
Anbieter	Google LLC
Zweck	Diese Webseite verwendet Google Analytics zur Analyse der Websitebenutzung durch Nutzer. Die Daten werden an einen Server von Google in den USA übertragen und dort gespeichert. Die personenbezogenen Daten werden auf Grundlage des Art. 46 und/oder Art. 49 Abs. 1 lit. a) DSGVO übermittelt.
Laufzeit	Daten werden gelöscht, sobald sie für die Bearbeitung nicht mehr benötigt werden. In der Regel werden die Cookies von Google für eine Dauer von 2 Jahren gespeichert.
Weiterführende Infos	https://policies.google.com/privacy