Das Jahr 2023 wird für immer als das Jahr der gene­ra­ti­ven KI in Erin­ne­rung blei­ben. In die­sem digi­ta­len Zeit­al­ter wird es schwer sein, jeman­den mit Inter­net­zu­gang zu fin­den, der noch nichts von ChatGPT gehört hat. Wenn Sie schon lange genug dabei sind, um den einen oder ande­ren Tech­no­lo­gie­zy­klus mit­zu­er­le­ben, dann wis­sen Sie, dass wir gerade in einen ziem­lich trans­for­ma­ti­ven Zyklus ein­tre­ten. Laut einer McK­in­sey-Umfrage hat sich der Ein­satz von KI seit 2017 ver­dop­pelt. Wäh­rend die jüngs­ten Ent­wick­lun­gen die Ein­füh­rung zwei­fel­los wei­ter beschleu­ni­gen wer­den, neige ich zu der Annahme, dass die Ergeb­nisse, die wir im Jahr 2024 sehen wer­den, rela­tiv gering sein wer­den, da die meis­ten Unter­neh­men immer noch ver­su­chen, her­aus­zu­fin­den, wie sie ihre Daten­stra­te­gie mit ihren Geschäfts­zie­len in Ein­klang brin­gen und gleich­zei­tig die zuneh­mende regu­la­to­ri­sche Kon­trolle bewäl­ti­gen kön­nen. Was die Daten­in­dus­trie betrifft, so wird die Ein­füh­rung von KI die wei­tere Nut­zung von Daten vor­an­trei­ben, indem Daten und die Daten­in­fra­struk­tur für eine brei­tere Nut­zer­gruppe inner­halb des Unter­neh­mens zugäng­li­cher gemacht wer­den, was wie­derum die Grund­lage für wei­tere KI-Pro­jekte bil­det. Die sichere Demo­kra­ti­sie­rung der Daten wird ein gro­ßes Thema sein; wir wer­den mehr prak­ti­sche Imple­men­tie­run­gen des Daten­ge­flechts und mehr Inves­ti­tio­nen in Sicher­heit, Daten­schutz und Beob­acht­bar­keit sehen.

Der Zweck die­ses Arti­kels ist es nicht, kühne Aus­sa­gen dar­über zu tref­fen, wie KI die Daten­in­dus­trie, wie wir sie ken­nen, ver­än­dern wird, son­dern viel­mehr, einige Berei­che zu beleuch­ten, in denen wir wahr­schein­lich wei­tere Inves­ti­tio­nen von Unter­neh­men sehen wer­den und in denen der Enthu­si­as­mus rund um Daten und KI zu einer sich selbst erfül­len­den Pro­phe­zei­ung wird.

KI wird zum Ein­satz kom­men und den moder­nen Data Stack, wie wir ihn ken­nen, ins Wan­ken bringen.

Natür­lich fan­gen wir hier an. Es lässt sich nicht leug­nen, dass LLMs die Art und Weise, wie wir über Tech­no­lo­gie den­ken und han­deln, völ­lig ver­än­dert haben, und der Daten- und Ana­ly­se­be­reich ist keine Aus­nahme. Was den moder­nen Data Stack betrifft, so sind hier einige Berei­che, in denen LLMs das Spiel ver­än­dern werden:

Daten­ana­lyse: Die Ein­füh­rung von KI in Ana­lyse-Work­flows wird die Auto­ma­ti­sie­rung, Effi­zi­enz und Zugäng­lich­keit erhöhen.

  • Auto­ma­ti­sie­rung: Müh­same Auf­ga­ben wie Daten­er­fas­sung, ‑aufbereitung und ‑berei­ni­gung las­sen sich mit Hilfe von KI auto­ma­ti­sie­ren und die Wahr­schein­lich­keit manu­el­ler Feh­ler verringern.
  • Effi­zi­enz: Durch den Ein­satz aus­ge­feil­te­rer Pro­gno­se­mo­delle kön­nen Unter­neh­men künf­tige Trends vor­her­se­hen und die Genau­ig­keit ihrer Pro­gno­sen erhö­hen. KI-Algo­rith­men kön­nen ein­ge­setzt wer­den, um das Kun­den­ver­hal­ten zu erken­nen und zu unter­su­chen, was hoch per­so­na­li­sierte Pro­dukt­emp­feh­lun­gen und geziel­tere Mar­ke­ting­kam­pa­gnen ermöglicht.
  • Zugäng­lich­keit: KI wird die Akzep­tanz von KI för­dern. NLP (Natu­ral Lan­guage Pro­ces­sing) kann genutzt wer­den, um die KI-gestützte Daten­ana­lyse zugäng­li­cher zu machen, indem auch tech­nisch weni­ger ver­sierte Nut­zer auf eine dia­log­ori­en­tierte Weise mit Daten inter­agie­ren können.

Vek­tor­da­ten­ban­ken sind auf dem Vor­marsch: LLMs benö­ti­gen eine Infrastruktur, die schnelle Abfra­gen und eine hohe Ver­ar­bei­tungs­ge­schwin­dig­keit von gro­ßen Daten­men­gen ermög­licht, sowohl struk­tu­riert als auch unstruk­tu­riert (ohne Schema). An die­ser Stelle kommt das mathe­ma­ti­sche Kon­zept der Vek­tor- und Vek­tor­such­da­ten­ban­ken ins Spiel. Anstelle von Zei­len und Spal­ten (im Falle tra­di­tio­nel­ler rela­tio­na­ler Daten­ban­ken) wer­den die Daten in einem mehr­di­men­sio­na­len Raum dar­ge­stellt, der in der Mathe­ma­tik typisch für eine Vek­tor­dar­stel­lung ist. Im Kon­text einer Gen AI-Anwen­dung ermög­li­chen Vek­tor­da­ten­ban­ken eine schnelle Ver­ar­bei­tung und Abfrage von vek­to­ri­sier­ten Daten. Mehr dazu hier und hier.

„Stel­len Sie sich eine Vek­tor­da­ten­bank als rie­si­ges Lager­haus und künst­li­che Intel­li­genz als geschick­ten Lager­haus­ver­wal­ter vor. In die­sem Lager­haus wird jedes Ele­ment (Daten) in einer Box (Vek­tor) gespei­chert, die ordent­lich auf Rega­len im mehr­di­men­sio­na­len Raum ange­ord­net ist“, so Mark Hinkle in The New Stack

Die „ML-Pipe­line“

In der tra­di­tio­nel­len Daten­tech­nik ist eine Daten­pipe­line der Pro­zess, durch den Daten von der Quelle zum Ziel trans­por­tiert wer­den, in der Regel, um sie dem Unter­neh­men durch BI für Berichte und Ana­ly­sen zugäng­lich zu machen. Die ML-Pipe­line ähnelt der tra­di­tio­nel­len Daten­pipe­line in dem Sinne, dass es sich eben­falls um einen Pro­zess der Daten­be­we­gung han­delt. Ihr Haupt­zweck besteht jedoch darin, den Pro­zess der Ent­wick­lung und Bereit­stel­lung von Model­len für maschi­nel­les Ler­nen zu ermög­li­chen, und in die­sem Sinne ist die ML-Pipe­line im Gegen­satz zur Daten­pipe­line keine „gerade Linie“ – mehr zu den Unter­schie­den zwi­schen Daten- und ML-Pipe­lines hier und hier.

Erfolg­rei­che ML‑, KI- und Data Sci­ence-Pro­jekte erfor­dern eine robuste Infrastruktur, die das Erstel­len, Tes­ten, Trai­nie­ren, Opti­mie­ren und Auf­recht­erhal­ten der Genau­ig­keit der Modelle ermög­licht. Das beginnt mit gut struk­tu­rier­ten ML-Pipelines.

Pri­vat­sphäre, bitte.

Es lässt sich nicht leug­nen, dass die Daten­nut­zung und damit der Bedarf der Unter­neh­men an einer Demo­kra­ti­sie­rung sowohl der Daten als auch der Platt­form im Jahr 2024 wei­ter mas­siv zuneh­men wird. Da jedoch sowohl Daten als auch KI stär­ker regu­liert wer­den, wird die Über­prü­fung der Richt­li­nien zum Schutz per­sön­li­cher Daten zuneh­men. Eine gute Zusam­men­fas­sung des­sen, was in den nächs­ten 12 Mona­ten in Bezug auf die KI-Regu­lie­rung zu erwar­ten ist, fin­den Sie hier.

BYODM: Bring Your Own Data Mesh

Seit sei­ner Ein­füh­rung durch sei­nen Schöp­fer Zha­mak im Jahr 2019 war das Daten­netz Gegen­stand zahl­rei­cher Debat­ten und einer gehö­ri­gen Por­tion Skep­sis. Vier Jahre spä­ter sind meh­rere Imple­men­tie­run­gen und Vari­an­ten ent­stan­den, bei denen Unter­neh­men die Grund­sätze des Kon­zepts über­nom­men und auf ihre Archi­tek­tur ange­wen­det haben. Dezen­tra­li­sie­rung, bereichs­ori­en­tier­tes Design, IaaS, Daten als Pro­dukt und durch­gän­gige föde­rierte Gover­nance sind alle­samt groß­ar­tige Prin­zi­pien, die sich Unter­neh­men zu eigen machen soll­ten, um eine silo­freie, demo­kra­ti­sierte Daten­um­ge­bung zu schaf­fen und zu för­dern. Der Über­gang von einer tra­di­tio­nel­len mono­li­thi­schen Struk­tur zu einem voll­stän­di­gen Daten­ge­flecht ist jedoch nicht ein­fach und erfor­dert erheb­li­che kul­tu­relle und orga­ni­sa­to­ri­sche Ver­än­de­run­gen. Aus die­sem Grund haben wir in den letz­ten Jah­ren gese­hen, dass eine schritt­weise Ein­füh­rung, die es ermög­licht, das Kon­zept lang­sam ein­zu­füh­ren und sei­nen Wert zu bewei­sen, wäh­rend bestehende und zukünf­tige tech­no­lo­gi­sche und geschäft­li­che Über­le­gun­gen in Ein­klang gebracht wer­den, am bes­ten funktioniert.

Letzt­end­lich ist es wich­tig, sich daran zu erin­nern, dass das Data Mesh eine archi­tek­to­ni­sche und orga­ni­sa­to­ri­sche Ver­än­de­rung ist, nicht eine tech­no­lo­gi­sche Lösung. Ich denke, dass sich der BYODM-Ansatz im Jahr 2024 durch­set­zen wird.

Daten & KI Beobachtbarkeit

Ich bin hier vor­ein­ge­nom­men. Den­noch ist es schwer, in einer Welt, in der jedes Unter­neh­men über das Poten­zial von LLMs nach­denkt, gegen die Beob­acht­bar­keit von Daten und KI zu argumentieren.

„Es gibt keine KI-Stra­te­gie ohne eine Daten­stra­te­gie. Die Intel­li­genz, die wir alle anstre­ben, ergibt sich aus den Daten“ Frank Slootman.

In den letz­ten Jah­ren hat sich Data Obser­va­bi­lity zu einer Schlüs­sel­kom­po­nente in der Daten­stra­te­gie eines jeden moder­nen Unter­neh­mens ent­wi­ckelt. Wenn Sie mit dem Kon­zept noch nicht ver­traut sind, emp­fehle ich Ihnen, hier oder hier zu begin­nen. Es lässt sich nicht leug­nen, dass KI auch den Bereich der Data Obser­va­bi­lity neu gestal­ten wird. Die Ein­füh­rung von KI-Agen­ten und die Ver­wen­dung von NLP wer­den den Auto­ma­ti­sie­rungs­grad und die Inklu­si­vi­tät der Platt­form­lö­sun­gen erhö­hen, was wie­derum die Akzep­tanz vor­an­trei­ben wird. Das Kon­zept der Data Obser­va­bi­lity, wie wir es ken­nen, wird sich wei­ter­ent­wi­ckeln, um das Poten­zial der KI in der Obser­va­bi­lity zu erfas­sen und mehr KI-Anwen­dungs­fälle abzudecken.

Die meis­ten der auf dem Markt erhält­li­chen Lösun­gen decken bereits einige Aspekte des­sen ab, was sich zu Data & AI Obser­va­bi­lity ent­wi­ckeln wird. Betrach­tet man Data Sci­ence als Anwen­dungs­fall der Daten­nut­zung, so wird die Über­wa­chung der Daten, die in das Modell­trai­ning ein­flie­ßen, von den meis­ten Frame­works bereits abge­deckt. Die Zukunft von Data & AI Obser­va­bi­lity wird sich dahin­ge­hend ent­wi­ckeln, dass Ein­bli­cke in das Ver­hal­ten, den Out­put und die Leis­tung von ML-Model­len gewährt wer­den. So wie heute Daten­pipe­lines abge­deckt wer­den, wer­den Data Obser­va­bi­lity-Platt­for­men ver­wert­bare Ein­bli­cke in ML-Pipe­lines bie­ten, um eine effek­tive Erken­nung von Anoma­lien, eine Ursa­chen­ana­lyse und ein Stö­rungs­ma­nage­ment zu ermög­li­chen und die Zuver­läs­sig­keit und Effi­zi­enz der ML-Pro­dukt­be­reit­stel­lung zu erhöhen.

Schluss­fol­ge­rung

2024 ist ein Schalt­jahr, was bedeu­tet, dass wir 366 Mög­lich­kei­ten haben, mehr zu tun und mit Daten Inno­va­tio­nen zu schaf­fen. Obwohl das Jahr 2023 für immer als das Jahr der Gen-KI in Erin­ne­rung blei­ben wird, wer­den wir ab 2024 sehen, wie Unter­neh­men an der Reife von Daten und KI arbei­ten. Aber um KI rich­tig zu machen, ist eine gut durch­dachte Daten­stra­te­gie uner­läss­lich. Der Modern Data Stack ist ein sich stän­dig wei­ter­ent­wi­ckeln­der Bereich, und im Jahr 2024 wer­den wir mehr Inno­va­tio­nen sehen, die durch die zuneh­mende Nut­zung von KI her­vor­ge­ru­fen und kata­ly­siert wer­den. Da Unter­neh­men im Jahr 2024 mehr mit KI expe­ri­men­tie­ren, wer­den Gover­nance und Beob­acht­bar­keit im Mit­tel­punkt ste­hen, um rei­bungs­lose und effi­zi­ente Imple­men­tie­run­gen zu gewährleisten.

Quelle: medium.com