„Die Daten- und KI-Bran­che ver­än­dert sich schnell. Wenn man nicht ab und zu inne­hält und sich umschaut, könnte man es ein­fach verpassen.“

2023 war das Jahr der GenAI. Und für 2024 zeich­net sich ab, dass es ein wei­te­res Jahr der GenAI wird.

Hier sind meine 9 wich­tigs­ten Pro­gno­sen für die Zukunft von Daten- und KI-Teams – und wie Ihr Team einen Schritt vor­aus sein kann.

1. LLMs wer­den den data stack transformieren

Es ist keine Über­trei­bung zu sagen, dass große Sprach­mo­delle (LLMs) die Tech­no­lo­gie in den letz­ten 12 Mona­ten völ­lig ver­än­dert haben. Von Unter­neh­men mit legi­ti­men Anwen­dungs­fäl­len bis hin zu „Fly-by-Night“-Teams, die mit ihrer Tech­no­lo­gie auf der Jagd nach einem Pro­blem sind, ver­sucht jeder und sein Daten­ver­wal­ter, gene­ra­tive KI (GenAI) auf die eine oder andere Weise zu nutzen.

LLMs wer­den die­sen Wan­del bis 2024 und dar­über hin­aus fort­set­zen – von der Stei­ge­rung der Daten­nach­frage und der Not­wen­dig­keit neuer Archi­tek­tu­ren wie Vek­tor­da­ten­ban­ken (auch bekannt als der „KI-Stack“) bis hin zur Ver­än­de­rung der Art und Weise, wie wir die Daten für unsere End­nut­zer bear­bei­ten und nutzen.

Die auto­ma­ti­sierte Daten­ana­lyse und ‑akti­vie­rung wird zu einem erwar­te­ten Werk­zeug in jedem Pro­dukt und auf jeder Ebene des Daten­stacks. Die Frage ist: Wie stel­len wir sicher, dass diese neuen Pro­dukte im Jahr 2024 einen ech­ten Mehr­wert bieten?

2. Daten­teams wer­den wie Soft­ware­teams aussehen

Die fort­schritt­lichs­ten Daten­teams betrach­ten ihre Daten­be­stände als echte Daten­pro­dukte – kom­plett mit Pro­dukt­an­for­de­run­gen, Doku­men­ta­tion, Sprints und sogar SLAs für Endbenutzer.

In dem Maße, in dem Unter­neh­men begin­nen, ihren defi­nier­ten Daten­pro­duk­ten immer mehr Wert bei­zu­mes­sen, wer­den mehr und mehr Daten­teams wie die wich­ti­gen Pro­dukt­teams, die sie sind, aus­se­hen – und auch so ver­wal­tet werden.

3. Und Soft­ware-Teams wer­den zu Datenexperten

Wenn Inge­nieure ver­su­chen, Daten­pro­dukte oder GenAI zu ent­wi­ckeln, ohne an die Daten zu den­ken, geht das nicht gut aus. Fra­gen Sie nur United Healthcare.

Da KI wei­ter­hin die Welt erobert, wer­den Tech­nik und Daten zu einer Ein­heit. Keine grö­ßere Soft­ware­ent­wick­lung wird auf den Markt kom­men, ohne ein Auge auf KI zu wer­fen – und keine grö­ßere KI wird auf den Markt kom­men, ohne ein gewis­ses Maß an ech­ten Unter­neh­mens­da­ten, die sie antreiben.

Das bedeu­tet, dass Inge­nieure, die neue KI-Pro­dukte ent­wi­ckeln, ein Auge für die Daten ent­wi­ckeln müs­sen – und dafür, wie sie mit ihnen arbei­ten kön­nen -, um Modelle zu erstel­len, die einen neuen und dau­er­haf­ten Mehr­wert schaffen.

4. Zuwen­dung zu RAG

Nach einer Reihe von öffent­lich­keits­wirk­sa­men GenAI-Fehl­schlä­gen ist der Bedarf an sau­be­ren, zuver­läs­si­gen und kura­tier­ten Kon­text­da­ten zur Erwei­te­rung von KI-Pro­duk­ten immer offen­sicht­li­cher geworden.

Da sich das KI-Feld wei­ter ent­wi­ckelt und blinde Fle­cken im all­ge­mei­nen LLM-Trai­ning schmerz­lich offen­sicht­lich wer­den, wer­den sich Teams mit pro­prie­tä­ren Daten mas­sen­haft RAG (Retrie­val Aug­men­ted Gene­ra­tion) und Fein­ab­stim­mung zuwen­den, um ihre KI-Pro­dukte für Unter­neh­men zu erwei­tern und ihren Stake­hol­dern einen nach­weis­ba­ren Wert zu bieten.

RAG ist noch rela­tiv neu in der Szene (es wurde erst­mals von Meta AI im Jahr 2020 ein­ge­führt), und die Unter­neh­men müs­sen erst noch Erfah­run­gen oder Best Prac­ti­ces rund um RAG ent­wi­ckeln – aber sie wer­den kommen.

5. Teams wer­den unter­neh­mens­taug­li­che KI-Pro­dukte operationalisieren

Der unge­bro­chene Trend in der Daten­tech­nik: Daten­pro­dukte. Und täu­schen Sie sich nicht: KI ist ein Datenprodukt.

Wenn 2023 das Jahr der KI war, wird 2024 das Jahr der Ope­ra­tio­na­li­sie­rung von KI-Pro­duk­ten sein. Ob aus Not­wen­dig­keit oder Zwang, Daten­teams in allen Bran­chen wer­den unter­neh­mens­taug­li­che KI-Pro­dukte ein­füh­ren. Die Frage ist nur, ob sie wirk­lich unter­neh­mens­taug­lich sind.

Vor­bei sind (hof­fent­lich) die Zei­ten, in denen man will­kür­li­che Chat-Funk­tio­nen ent­wi­ckelt hat, nur um zu sagen, dass man KI inte­griert, wenn der Vor­stand danach fragt. Im Jahr 2024 wer­den die Teams bei der Ent­wick­lung von KI-Pro­duk­ten wahr­schein­lich anspruchs­vol­ler vor­ge­hen, indem sie bes­sere Schu­lungs­prak­ti­ken nut­zen, um einen Mehr­wert zu schaf­fen, und Pro­bleme iden­ti­fi­zie­ren, die es zu lösen gilt, anstatt Tech­no­lo­gien zu ent­wi­ckeln, die neue Pro­bleme schaffen.

6. Die Beob­acht­bar­keit von Daten wird KI und Vek­tor­da­ten­ban­ken unterstützen

In der CDO Insights-Umfrage 2023 von Ama­zon Web Ser­vices (AWS) wur­den die Befrag­ten gefragt, was die größte Her­aus­for­de­rung für ihr Unter­neh­men bei der Rea­li­sie­rung des Poten­zi­als der gene­ra­ti­ven KI ist.

Die häu­figste Ant­wort? Die Datenqualität.

Gene­ra­tive KI ist in ihrem Kern ein Daten­pro­dukt. Und wie jedes Daten­pro­dukt funk­tio­niert sie nicht ohne zuver­läs­sige Daten. In der Grö­ßen­ord­nung von LLMs kann die manu­elle Über­wa­chung jedoch nicht die umfas­sende und effi­zi­ente Qua­li­täts­ab­de­ckung bie­ten, die erfor­der­lich ist, um jede KI zuver­läs­sig zu machen.

Um wirk­lich erfolg­reich zu sein, benö­ti­gen Daten­teams eine leben­dige Stra­te­gie zur Daten­be­ob­ach­tung, die auf KI-Stacks zuge­schnit­ten ist und sie in die Lage ver­setzt, Daten­aus­fälle im Kon­text einer wach­sen­den und dyna­mi­schen Umge­bung zu erken­nen, zu behe­ben und zu ver­hin­dern. Und diese Lösun­gen müs­sen der Auf­lö­sung, der Pipe­line-Effi­zi­enz und den Strea­ming-/Vek­tor-Infra­struk­tu­ren, die KI unter­stüt­zen, Prio­ri­tät ein­räu­men, um im Jahr 2024 im Kampf um die moderne KI-Zuver­läs­sig­keit mit­hal­ten zu können.

7. Big Data wird klein werden

Vor drei­ßig Jah­ren war ein Per­so­nal Com­pu­ter noch eine Neu­heit. Heute ver­fü­gen moderne Mac­books über die glei­che Rechen­leis­tung wie die AWS-Ser­ver, auf denen Snow­flake 2012 sein MVP-Ware­house ein­rich­tete, und die Gren­zen zwi­schen kom­mer­zi­el­len und Unter­neh­mens­lö­sun­gen verschwimmen.

Da die meis­ten Arbeits­las­ten klein sind, wer­den Daten­teams anfan­gen, In-Pro­cess- und In-Memo­ry­/In-Pro­cess-Daten­ban­ken zu ver­wen­den, um Daten­sätze zu ana­ly­sie­ren und zu verschieben.

Ins­be­son­dere für Teams, die schnell ska­lie­ren müs­sen, sind diese Lösun­gen schnell ein­satz­be­reit und kön­nen mit kom­mer­zi­el­ler Hard­ware auf Unter­neh­mens­ni­veau aufsteigen.

8. Right-sizing hat Vorrang

Die Daten­ver­ant­wort­li­chen von heute ste­hen vor einer unlös­ba­ren Auf­gabe. Mehr Daten nut­zen, mehr Wir­kung erzie­len, mehr KI ein­set­zen – aber gleich­zei­tig die Cloud-Kos­ten senken.

Wie die Har­vard Busi­ness Review schreibt, sind Chief Data and AI Offi­cers zum Schei­tern ver­ur­teilt. IDC berich­tet, dass die Aus­ga­ben für Cloud-Infra­struk­tu­ren bis zum ers­ten Quar­tal 2023 auf 21,5 Mil­li­ar­den US-Dol­lar gestie­gen sind. Laut McK­in­sey wach­sen die Cloud-Aus­ga­ben in vie­len Unter­neh­men jähr­lich um bis zu 30%.

Ansätze mit gerin­gen Aus­wir­kun­gen wie die Über­wa­chung von Meta­da­ten und Tools, die es den Teams ermög­li­chen, die Nut­zung zu erken­nen und rich­tig zu dimen­sio­nie­ren, wer­den im Jahr 2024 von unschätz­ba­rem Wert sein.

9. Der Eis­berg wird wach­sen (Apa­che Iceberg)

Apa­che Ice­berg ist ein open source Data-Lake­house-Tabel­len­for­mat, das vom Data-Engi­nee­ring-Team von Net­flix ent­wi­ckelt wurde, um eine schnel­lere und ein­fa­chere Mög­lich­keit zur Ver­ar­bei­tung gro­ßer Daten­sätze in gro­ßem Maß­stab zu bie­ten. Es ist so kon­zi­piert, dass es selbst für große ana­ly­ti­sche Tabel­len mit Peta­bytes an Daten leicht mit SQL abge­fragt wer­den kann.

Wäh­rend moderne Data Warehou­ses und Lake­hou­ses sowohl Rechen­leis­tung als auch Spei­cher­platz bie­ten, kon­zen­triert sich Ice­berg auf die Bereit­stel­lung von kos­ten­güns­ti­gem, struk­tu­rier­tem Spei­cher, auf den viele ver­schie­dene Engi­nes zugrei­fen kön­nen, die in Ihrem Unter­neh­men gleich­zei­tig zum Ein­satz kom­men kön­nen, wie Apa­che Spark, Trino, Apa­che Flink, Presto, Apa­che Hive und Impala.

Kürz­lich kün­digte Dat­ab­ricks an, dass die Meta­da­ten von Delta-Tabel­len auch mit dem Ice­berg-For­mat kom­pa­ti­bel sein wer­den, und auch Snow­flake bemüht sich inten­siv um eine Inte­gra­tion mit Ice­berg. Da das Lake­house für viele Unter­neh­men zu einer De-facto-Lösung wird, wer­den Apa­che Ice­berg – und Ice­berg-Alter­na­ti­ven – wahr­schein­lich wei­ter an Popu­la­ri­tät gewinnen.

Quelle: medium.com