Das Jahr 2023 wird für immer als das Jahr der generativen KI in Erinnerung bleiben. In diesem digitalen Zeitalter wird es schwer sein, jemanden mit Internetzugang zu finden, der noch nichts von ChatGPT gehört hat. Wenn Sie schon lange genug dabei sind, um den einen oder anderen Technologiezyklus mitzuerleben, dann wissen Sie, dass wir gerade in einen ziemlich transformativen Zyklus eintreten. Laut einer McKinsey-Umfrage hat sich der Einsatz von KI seit 2017 verdoppelt. Während die jüngsten Entwicklungen die Einführung zweifellos weiter beschleunigen werden, neige ich zu der Annahme, dass die Ergebnisse, die wir im Jahr 2024 sehen werden, relativ gering sein werden, da die meisten Unternehmen immer noch versuchen, herauszufinden, wie sie ihre Datenstrategie mit ihren Geschäftszielen in Einklang bringen und gleichzeitig die zunehmende regulatorische Kontrolle bewältigen können. Was die Datenindustrie betrifft, so wird die Einführung von KI die weitere Nutzung von Daten vorantreiben, indem Daten und die Dateninfrastruktur für eine breitere Nutzergruppe innerhalb des Unternehmens zugänglicher gemacht werden, was wiederum die Grundlage für weitere KI-Projekte bildet. Die sichere Demokratisierung der Daten wird ein großes Thema sein; wir werden mehr praktische Implementierungen des Datengeflechts und mehr Investitionen in Sicherheit, Datenschutz und Beobachtbarkeit sehen.
Der Zweck dieses Artikels ist es nicht, kühne Aussagen darüber zu treffen, wie KI die Datenindustrie, wie wir sie kennen, verändern wird, sondern vielmehr, einige Bereiche zu beleuchten, in denen wir wahrscheinlich weitere Investitionen von Unternehmen sehen werden und in denen der Enthusiasmus rund um Daten und KI zu einer sich selbst erfüllenden Prophezeiung wird.
KI wird zum Einsatz kommen und den modernen Data Stack, wie wir ihn kennen, ins Wanken bringen.
Natürlich fangen wir hier an. Es lässt sich nicht leugnen, dass LLMs die Art und Weise, wie wir über Technologie denken und handeln, völlig verändert haben, und der Daten- und Analysebereich ist keine Ausnahme. Was den modernen Data Stack betrifft, so sind hier einige Bereiche, in denen LLMs das Spiel verändern werden:
Datenanalyse: Die Einführung von KI in Analyse-Workflows wird die Automatisierung, Effizienz und Zugänglichkeit erhöhen.
- Automatisierung: Mühsame Aufgaben wie Datenerfassung, ‑aufbereitung und ‑bereinigung lassen sich mit Hilfe von KI automatisieren und die Wahrscheinlichkeit manueller Fehler verringern.
- Effizienz: Durch den Einsatz ausgefeilterer Prognosemodelle können Unternehmen künftige Trends vorhersehen und die Genauigkeit ihrer Prognosen erhöhen. KI-Algorithmen können eingesetzt werden, um das Kundenverhalten zu erkennen und zu untersuchen, was hoch personalisierte Produktempfehlungen und gezieltere Marketingkampagnen ermöglicht.
- Zugänglichkeit: KI wird die Akzeptanz von KI fördern. NLP (Natural Language Processing) kann genutzt werden, um die KI-gestützte Datenanalyse zugänglicher zu machen, indem auch technisch weniger versierte Nutzer auf eine dialogorientierte Weise mit Daten interagieren können.
Vektordatenbanken sind auf dem Vormarsch: LLMs benötigen eine Infrastruktur, die schnelle Abfragen und eine hohe Verarbeitungsgeschwindigkeit von großen Datenmengen ermöglicht, sowohl strukturiert als auch unstrukturiert (ohne Schema). An dieser Stelle kommt das mathematische Konzept der Vektor- und Vektorsuchdatenbanken ins Spiel. Anstelle von Zeilen und Spalten (im Falle traditioneller relationaler Datenbanken) werden die Daten in einem mehrdimensionalen Raum dargestellt, der in der Mathematik typisch für eine Vektordarstellung ist. Im Kontext einer Gen AI-Anwendung ermöglichen Vektordatenbanken eine schnelle Verarbeitung und Abfrage von vektorisierten Daten. Mehr dazu hier und hier.
„Stellen Sie sich eine Vektordatenbank als riesiges Lagerhaus und künstliche Intelligenz als geschickten Lagerhausverwalter vor. In diesem Lagerhaus wird jedes Element (Daten) in einer Box (Vektor) gespeichert, die ordentlich auf Regalen im mehrdimensionalen Raum angeordnet ist“, so Mark Hinkle in The New Stack
Die „ML-Pipeline“
In der traditionellen Datentechnik ist eine Datenpipeline der Prozess, durch den Daten von der Quelle zum Ziel transportiert werden, in der Regel, um sie dem Unternehmen durch BI für Berichte und Analysen zugänglich zu machen. Die ML-Pipeline ähnelt der traditionellen Datenpipeline in dem Sinne, dass es sich ebenfalls um einen Prozess der Datenbewegung handelt. Ihr Hauptzweck besteht jedoch darin, den Prozess der Entwicklung und Bereitstellung von Modellen für maschinelles Lernen zu ermöglichen, und in diesem Sinne ist die ML-Pipeline im Gegensatz zur Datenpipeline keine „gerade Linie“ – mehr zu den Unterschieden zwischen Daten- und ML-Pipelines hier und hier.
Erfolgreiche ML‑, KI- und Data Science-Projekte erfordern eine robuste Infrastruktur, die das Erstellen, Testen, Trainieren, Optimieren und Aufrechterhalten der Genauigkeit der Modelle ermöglicht. Das beginnt mit gut strukturierten ML-Pipelines.
Privatsphäre, bitte.
Es lässt sich nicht leugnen, dass die Datennutzung und damit der Bedarf der Unternehmen an einer Demokratisierung sowohl der Daten als auch der Plattform im Jahr 2024 weiter massiv zunehmen wird. Da jedoch sowohl Daten als auch KI stärker reguliert werden, wird die Überprüfung der Richtlinien zum Schutz persönlicher Daten zunehmen. Eine gute Zusammenfassung dessen, was in den nächsten 12 Monaten in Bezug auf die KI-Regulierung zu erwarten ist, finden Sie hier.
BYODM: Bring Your Own Data Mesh
Seit seiner Einführung durch seinen Schöpfer Zhamak im Jahr 2019 war das Datennetz Gegenstand zahlreicher Debatten und einer gehörigen Portion Skepsis. Vier Jahre später sind mehrere Implementierungen und Varianten entstanden, bei denen Unternehmen die Grundsätze des Konzepts übernommen und auf ihre Architektur angewendet haben. Dezentralisierung, bereichsorientiertes Design, IaaS, Daten als Produkt und durchgängige föderierte Governance sind allesamt großartige Prinzipien, die sich Unternehmen zu eigen machen sollten, um eine silofreie, demokratisierte Datenumgebung zu schaffen und zu fördern. Der Übergang von einer traditionellen monolithischen Struktur zu einem vollständigen Datengeflecht ist jedoch nicht einfach und erfordert erhebliche kulturelle und organisatorische Veränderungen. Aus diesem Grund haben wir in den letzten Jahren gesehen, dass eine schrittweise Einführung, die es ermöglicht, das Konzept langsam einzuführen und seinen Wert zu beweisen, während bestehende und zukünftige technologische und geschäftliche Überlegungen in Einklang gebracht werden, am besten funktioniert.
Letztendlich ist es wichtig, sich daran zu erinnern, dass das Data Mesh eine architektonische und organisatorische Veränderung ist, nicht eine technologische Lösung. Ich denke, dass sich der BYODM-Ansatz im Jahr 2024 durchsetzen wird.
Daten & KI Beobachtbarkeit
Ich bin hier voreingenommen. Dennoch ist es schwer, in einer Welt, in der jedes Unternehmen über das Potenzial von LLMs nachdenkt, gegen die Beobachtbarkeit von Daten und KI zu argumentieren.
„Es gibt keine KI-Strategie ohne eine Datenstrategie. Die Intelligenz, die wir alle anstreben, ergibt sich aus den Daten“ Frank Slootman.
In den letzten Jahren hat sich Data Observability zu einer Schlüsselkomponente in der Datenstrategie eines jeden modernen Unternehmens entwickelt. Wenn Sie mit dem Konzept noch nicht vertraut sind, empfehle ich Ihnen, hier oder hier zu beginnen. Es lässt sich nicht leugnen, dass KI auch den Bereich der Data Observability neu gestalten wird. Die Einführung von KI-Agenten und die Verwendung von NLP werden den Automatisierungsgrad und die Inklusivität der Plattformlösungen erhöhen, was wiederum die Akzeptanz vorantreiben wird. Das Konzept der Data Observability, wie wir es kennen, wird sich weiterentwickeln, um das Potenzial der KI in der Observability zu erfassen und mehr KI-Anwendungsfälle abzudecken.
Die meisten der auf dem Markt erhältlichen Lösungen decken bereits einige Aspekte dessen ab, was sich zu Data & AI Observability entwickeln wird. Betrachtet man Data Science als Anwendungsfall der Datennutzung, so wird die Überwachung der Daten, die in das Modelltraining einfließen, von den meisten Frameworks bereits abgedeckt. Die Zukunft von Data & AI Observability wird sich dahingehend entwickeln, dass Einblicke in das Verhalten, den Output und die Leistung von ML-Modellen gewährt werden. So wie heute Datenpipelines abgedeckt werden, werden Data Observability-Plattformen verwertbare Einblicke in ML-Pipelines bieten, um eine effektive Erkennung von Anomalien, eine Ursachenanalyse und ein Störungsmanagement zu ermöglichen und die Zuverlässigkeit und Effizienz der ML-Produktbereitstellung zu erhöhen.
Schlussfolgerung
2024 ist ein Schaltjahr, was bedeutet, dass wir 366 Möglichkeiten haben, mehr zu tun und mit Daten Innovationen zu schaffen. Obwohl das Jahr 2023 für immer als das Jahr der Gen-KI in Erinnerung bleiben wird, werden wir ab 2024 sehen, wie Unternehmen an der Reife von Daten und KI arbeiten. Aber um KI richtig zu machen, ist eine gut durchdachte Datenstrategie unerlässlich. Der Modern Data Stack ist ein sich ständig weiterentwickelnder Bereich, und im Jahr 2024 werden wir mehr Innovationen sehen, die durch die zunehmende Nutzung von KI hervorgerufen und katalysiert werden. Da Unternehmen im Jahr 2024 mehr mit KI experimentieren, werden Governance und Beobachtbarkeit im Mittelpunkt stehen, um reibungslose und effiziente Implementierungen zu gewährleisten.
Quelle: medium.com