„Die Daten- und KI-Branche verändert sich schnell. Wenn man nicht ab und zu innehält und sich umschaut, könnte man es einfach verpassen.“
2023 war das Jahr der GenAI. Und für 2024 zeichnet sich ab, dass es ein weiteres Jahr der GenAI wird.
Hier sind meine 9 wichtigsten Prognosen für die Zukunft von Daten- und KI-Teams – und wie Ihr Team einen Schritt voraus sein kann.
1. LLMs werden den data stack transformieren
Es ist keine Übertreibung zu sagen, dass große Sprachmodelle (LLMs) die Technologie in den letzten 12 Monaten völlig verändert haben. Von Unternehmen mit legitimen Anwendungsfällen bis hin zu „Fly-by-Night“-Teams, die mit ihrer Technologie auf der Jagd nach einem Problem sind, versucht jeder und sein Datenverwalter, generative KI (GenAI) auf die eine oder andere Weise zu nutzen.
LLMs werden diesen Wandel bis 2024 und darüber hinaus fortsetzen – von der Steigerung der Datennachfrage und der Notwendigkeit neuer Architekturen wie Vektordatenbanken (auch bekannt als der „KI-Stack“) bis hin zur Veränderung der Art und Weise, wie wir die Daten für unsere Endnutzer bearbeiten und nutzen.
Die automatisierte Datenanalyse und ‑aktivierung wird zu einem erwarteten Werkzeug in jedem Produkt und auf jeder Ebene des Datenstacks. Die Frage ist: Wie stellen wir sicher, dass diese neuen Produkte im Jahr 2024 einen echten Mehrwert bieten?
2. Datenteams werden wie Softwareteams aussehen
Die fortschrittlichsten Datenteams betrachten ihre Datenbestände als echte Datenprodukte – komplett mit Produktanforderungen, Dokumentation, Sprints und sogar SLAs für Endbenutzer.
In dem Maße, in dem Unternehmen beginnen, ihren definierten Datenprodukten immer mehr Wert beizumessen, werden mehr und mehr Datenteams wie die wichtigen Produktteams, die sie sind, aussehen – und auch so verwaltet werden.
3. Und Software-Teams werden zu Datenexperten
Wenn Ingenieure versuchen, Datenprodukte oder GenAI zu entwickeln, ohne an die Daten zu denken, geht das nicht gut aus. Fragen Sie nur United Healthcare.
Da KI weiterhin die Welt erobert, werden Technik und Daten zu einer Einheit. Keine größere Softwareentwicklung wird auf den Markt kommen, ohne ein Auge auf KI zu werfen – und keine größere KI wird auf den Markt kommen, ohne ein gewisses Maß an echten Unternehmensdaten, die sie antreiben.
Das bedeutet, dass Ingenieure, die neue KI-Produkte entwickeln, ein Auge für die Daten entwickeln müssen – und dafür, wie sie mit ihnen arbeiten können -, um Modelle zu erstellen, die einen neuen und dauerhaften Mehrwert schaffen.
4. Zuwendung zu RAG
Nach einer Reihe von öffentlichkeitswirksamen GenAI-Fehlschlägen ist der Bedarf an sauberen, zuverlässigen und kuratierten Kontextdaten zur Erweiterung von KI-Produkten immer offensichtlicher geworden.
Da sich das KI-Feld weiter entwickelt und blinde Flecken im allgemeinen LLM-Training schmerzlich offensichtlich werden, werden sich Teams mit proprietären Daten massenhaft RAG (Retrieval Augmented Generation) und Feinabstimmung zuwenden, um ihre KI-Produkte für Unternehmen zu erweitern und ihren Stakeholdern einen nachweisbaren Wert zu bieten.
RAG ist noch relativ neu in der Szene (es wurde erstmals von Meta AI im Jahr 2020 eingeführt), und die Unternehmen müssen erst noch Erfahrungen oder Best Practices rund um RAG entwickeln – aber sie werden kommen.
5. Teams werden unternehmenstaugliche KI-Produkte operationalisieren
Der ungebrochene Trend in der Datentechnik: Datenprodukte. Und täuschen Sie sich nicht: KI ist ein Datenprodukt.
Wenn 2023 das Jahr der KI war, wird 2024 das Jahr der Operationalisierung von KI-Produkten sein. Ob aus Notwendigkeit oder Zwang, Datenteams in allen Branchen werden unternehmenstaugliche KI-Produkte einführen. Die Frage ist nur, ob sie wirklich unternehmenstauglich sind.
Vorbei sind (hoffentlich) die Zeiten, in denen man willkürliche Chat-Funktionen entwickelt hat, nur um zu sagen, dass man KI integriert, wenn der Vorstand danach fragt. Im Jahr 2024 werden die Teams bei der Entwicklung von KI-Produkten wahrscheinlich anspruchsvoller vorgehen, indem sie bessere Schulungspraktiken nutzen, um einen Mehrwert zu schaffen, und Probleme identifizieren, die es zu lösen gilt, anstatt Technologien zu entwickeln, die neue Probleme schaffen.
6. Die Beobachtbarkeit von Daten wird KI und Vektordatenbanken unterstützen
In der CDO Insights-Umfrage 2023 von Amazon Web Services (AWS) wurden die Befragten gefragt, was die größte Herausforderung für ihr Unternehmen bei der Realisierung des Potenzials der generativen KI ist.
Die häufigste Antwort? Die Datenqualität.
Generative KI ist in ihrem Kern ein Datenprodukt. Und wie jedes Datenprodukt funktioniert sie nicht ohne zuverlässige Daten. In der Größenordnung von LLMs kann die manuelle Überwachung jedoch nicht die umfassende und effiziente Qualitätsabdeckung bieten, die erforderlich ist, um jede KI zuverlässig zu machen.
Um wirklich erfolgreich zu sein, benötigen Datenteams eine lebendige Strategie zur Datenbeobachtung, die auf KI-Stacks zugeschnitten ist und sie in die Lage versetzt, Datenausfälle im Kontext einer wachsenden und dynamischen Umgebung zu erkennen, zu beheben und zu verhindern. Und diese Lösungen müssen der Auflösung, der Pipeline-Effizienz und den Streaming-/Vektor-Infrastrukturen, die KI unterstützen, Priorität einräumen, um im Jahr 2024 im Kampf um die moderne KI-Zuverlässigkeit mithalten zu können.
7. Big Data wird klein werden
Vor dreißig Jahren war ein Personal Computer noch eine Neuheit. Heute verfügen moderne Macbooks über die gleiche Rechenleistung wie die AWS-Server, auf denen Snowflake 2012 sein MVP-Warehouse einrichtete, und die Grenzen zwischen kommerziellen und Unternehmenslösungen verschwimmen.
Da die meisten Arbeitslasten klein sind, werden Datenteams anfangen, In-Process- und In-Memory/In-Process-Datenbanken zu verwenden, um Datensätze zu analysieren und zu verschieben.
Insbesondere für Teams, die schnell skalieren müssen, sind diese Lösungen schnell einsatzbereit und können mit kommerzieller Hardware auf Unternehmensniveau aufsteigen.
8. Right-sizing hat Vorrang
Die Datenverantwortlichen von heute stehen vor einer unlösbaren Aufgabe. Mehr Daten nutzen, mehr Wirkung erzielen, mehr KI einsetzen – aber gleichzeitig die Cloud-Kosten senken.
Wie die Harvard Business Review schreibt, sind Chief Data and AI Officers zum Scheitern verurteilt. IDC berichtet, dass die Ausgaben für Cloud-Infrastrukturen bis zum ersten Quartal 2023 auf 21,5 Milliarden US-Dollar gestiegen sind. Laut McKinsey wachsen die Cloud-Ausgaben in vielen Unternehmen jährlich um bis zu 30%.
Ansätze mit geringen Auswirkungen wie die Überwachung von Metadaten und Tools, die es den Teams ermöglichen, die Nutzung zu erkennen und richtig zu dimensionieren, werden im Jahr 2024 von unschätzbarem Wert sein.
9. Der Eisberg wird wachsen (Apache Iceberg)
Apache Iceberg ist ein open source Data-Lakehouse-Tabellenformat, das vom Data-Engineering-Team von Netflix entwickelt wurde, um eine schnellere und einfachere Möglichkeit zur Verarbeitung großer Datensätze in großem Maßstab zu bieten. Es ist so konzipiert, dass es selbst für große analytische Tabellen mit Petabytes an Daten leicht mit SQL abgefragt werden kann.
Während moderne Data Warehouses und Lakehouses sowohl Rechenleistung als auch Speicherplatz bieten, konzentriert sich Iceberg auf die Bereitstellung von kostengünstigem, strukturiertem Speicher, auf den viele verschiedene Engines zugreifen können, die in Ihrem Unternehmen gleichzeitig zum Einsatz kommen können, wie Apache Spark, Trino, Apache Flink, Presto, Apache Hive und Impala.
Kürzlich kündigte Databricks an, dass die Metadaten von Delta-Tabellen auch mit dem Iceberg-Format kompatibel sein werden, und auch Snowflake bemüht sich intensiv um eine Integration mit Iceberg. Da das Lakehouse für viele Unternehmen zu einer De-facto-Lösung wird, werden Apache Iceberg – und Iceberg-Alternativen – wahrscheinlich weiter an Popularität gewinnen.
Quelle: medium.com