1. Kos­ten­op­ti­mie­rung durch Co-Piloten

Ich bin ein gro­ßer Fan von Co-Pilo­ten, die dem End­be­nut­zer hel­fen, seine Auf­ga­ben effi­zi­ent zu erledigen.

Als regel­mä­ßi­ger Nut­zer von Grammarly weiß ich es zu schät­zen, wie es den Bear­bei­tungs­pro­zess von schrift­li­chen Inhal­ten aller Art beschleu­nigt. In ähn­li­cher Weise wer­den Co-Pilo­ten bei den meis­ten unse­rer Arbei­ten die Haupt­rolle spie­len, auch bei der Datenarchitektur.

Zu den täg­li­chen Auf­ga­ben eines Daten­ar­chi­tek­ten gehö­ren Aspekte des Daten­mo­dell­de­signs, die Fest­le­gung von Stan­dards und die Imple­men­tie­rung von Gover­nance-Struk­tu­ren. Co-Pilo­ten wie Micro­soft kön­nen dabei hel­fen, Sätze in einer E‑Mail zu ver­voll­stän­di­gen und Ankün­di­gun­gen auf der Grund­lage von Spe­zi­fi­ka­ti­ons­do­ku­men­ten zu erstel­len. In ähn­li­cher Weise kann ein Co-Pilot für einen Daten­ar­chi­tek­ten Entity-Rela­ti­onship-Dia­gramme (ERD) erstel­len, die aus­schließ­lich auf Benut­zer­an­for­de­run­gen basie­ren, indem er Ihre Design-Ein­schrän­kun­gen ver­steht. Co-Pilo­ten kön­nen an der Seite des Archi­tek­ten arbei­ten und des­sen täg­li­chen Pro­zess beschleunigen.

Es sollte nicht über­ra­schen, dass Unter­neh­men nach Mög­lich­kei­ten zur Kos­ten­op­ti­mie­rung suchen, wenn die Pro­duk­ti­vi­tät in die Höhe schnellt. Einige Schät­zun­gen gehen davon aus, dass Tau­sende, wenn nicht gar Mil­lio­nen von Arbeits­plät­zen betrof­fen sein werden.

2. Kon­text­ab­hän­gige Analytik

Mit der Cloud haben wir zwar das Spei­cher­pro­blem gelöst, aber wir müs­sen immer noch das Kon­text­pro­blem lösen. Daten sind an und für sich nur eine Reihe von Texten/Zahlen; der Wert wird erst dann deut­lich, wenn man ihnen einen Kon­text hin­zu­fügt. Und „Daten­kon­text“ ist eine mil­li­ar­den­schwere Industrie.

Der Daten­kon­text umfasst geschäft­li­che oder tech­ni­sche Meta­da­ten, Gover­nance- oder Daten­schutz­an­for­de­run­gen sowie Zugäng­lich­keits- oder Sicher­heits­an­for­de­run­gen. Obwohl sich diese Bran­che bis 2028 ver­dop­peln soll, frage ich mich, wie viel von die­sem Wachs­tum von den LLMs genutzt wer­den wird. Mit Hilfe von Seman­ti­schen Ein­bet­tun­gen und Vek­tor­da­ten­ban­ken wer­den Unter­neh­men bei­spiels­weise in der Lage sein, Daten schnell zu kon­tex­tua­li­sie­ren, ohne umfang­rei­che Daten­kon­text-Tools imple­men­tie­ren zu müs­sen. Wenn ich mit Embed­dings Anoma­lien erken­nen kann, brau­che ich dann einen umfas­sen­den Gover­nance-Rah­men? Dies unter­streicht Punkt 1 der wei­te­ren Kos­ten­op­ti­mie­rung durch LLMs.

Die Ein­bet­tung (Wort­spiel beab­sich­tigt!) von KI in die Daten­pipe­lines, ‑trans­for­ma­tio­nen und ‑linien kann dabei hel­fen, einen Kon­text auf­zu­bauen. Und auf die­sen Kon­text kann man sich ver­las­sen, um Fra­gen der End­nut­zer für Ana­ly­sen oder regu­la­to­ri­sche Anfor­de­run­gen zu beant­wor­ten. Ent­hal­ten diese Daten zum Bei­spiel per­so­nen­be­zo­gene Infor­ma­tio­nen? Wenn ja, kön­nen Sie sie aus bestimm­ten Ana­ly­se­fäl­len herausfiltern.

Das Bild ver­deut­licht, wie eine Kon­text­ebene Infor­ma­tio­nen wie ein her­kömm­li­cher Daten­ka­ta­log erfasst, mit dem Unter­schied, dass sie die Leis­tung von LLMs nutzt und mensch­li­che Ein­griffe dras­tisch reduziert.

Der Kon­text macht die Daten wert­voll; er kann mit LLMs schnel­ler erreicht werden.

3. Ein­füh­rung von Datenarchitektur-Ökosystemen

Wir haben genug von iso­lier­ten und dis­pa­ra­ten Archi­tek­tu­ren. Eine Archi­tek­tur, bei der die Gover­nance-Tools nicht in den Data Lake inte­griert sind, das Quell­sys­tem nicht für die Ana­lyse kon­zi­piert ist oder meh­rere Quel­len der Wahr­heit existieren.

Das Öko­sys­tem muss das Ange­bot von Ver­brau­cher­un­ter­neh­men wie Apple wider­spie­geln. Ein Schlüs­sel­pro­dukt mit ver­schie­de­nen unter­stüt­zen­den, zusam­men­setz­ba­ren Pro­duk­ten, die ein­zeln nütz­lich sind, aber zusam­men ein über­wäl­ti­gen­des Öko­sys­tem bil­den. Ein Bei­spiel: Ein Daten­pro­dukt­markt­platz (iPhone) zeigt Infor­ma­tio­nen aus dem Daten­be­ob­ach­tungs­rah­men (Watch) an und wird durch eine ein­zige Zugangs­me­thode (Face ID) gesteu­ert. Die Daten­ar­chi­tek­tur wird sich in einem Öko­sys­tem befin­den, in dem die Inte­gra­tion keine Schwä­che mehr dar­stellt. Und das wird ein ent­schei­den­der Fak­tor sein.

Ein Öko­sys­tem wird auch das Risiko der Infor­ma­ti­ons­red­un­danz über ver­schie­dene Quel­len hin­weg ver­rin­gern (wie die Syn­chro­ni­sie­rung Ihrer iMes­sa­ges über alle Ihre Geräte hin­weg). Es gibt bereits Start-ups, die dies mit Kon­zep­ten wie OBT (One Big Table) revo­lu­tio­nie­ren wol­len. Öko­sys­teme bedeu­ten auch Daten­de­fi­ni­tio­nen; Stan­dards wer­den ein­mal fest­ge­legt und in jedem Bereich wei­ter­ge­ge­ben, wodurch die Kos­ten für die Repli­ka­tion gesenkt werden.

Eine Kun­den­trans­ak­ti­ons­ta­belle bei­spiels­weise erfasst Infor­ma­tio­nen aus dem CRM-Sys­tem; das CRM ist stan­dard­mä­ßig so kon­zi­piert, dass es die für Ana­ly­sen erfor­der­li­chen Pflicht­fel­der erfasst [1]. Sobald die Daten über­tra­gen sind, wer­den sie einer Reihe von Daten­qua­li­täts­prü­fun­gen unter­zo­gen, um ihre Zweck­mä­ßig­keit zu gewähr­leis­ten [2]. Nach der Umwand­lung wer­den die Abgleichs­in­for­ma­tio­nen erfasst, um sicher­zu­stel­len, dass die Daten nicht ver­lo­ren gegan­gen sind [3]. Vor der Ver­wen­dung wer­den sie in per­sön­li­che Daten­be­rei­che ein­ge­teilt, und es wer­den geeig­nete Kon­troll­me­cha­nis­men fest­ge­legt [4]. All diese Pro­zesse sind an sich schon wich­tig, aber sie sind noch viel leis­tungs­fä­hi­ger: Wenn die Daten schließ­lich pro­duk­tiv gemacht wer­den, kön­nen Sie [1] – [4] für die­sen Daten­satz visua­li­sie­ren und die­sen Daten wie­derum vertrauen.

Fazit

Als ob der Modern Data Stack nicht schon sei­nen eige­nen Hype hätte, müs­sen wir uns jetzt auch noch mit dem Hype um GenAI aus­ein­an­der­set­zen. Es wird inter­es­sant sein zu sehen, wie sich diese Trends in den nächs­ten 12–18 Mona­ten ent­wi­ckeln wer­den. Ich gehe davon aus, dass Unter­neh­men, die bereits in die Grund­la­gen inves­tiert haben, von die­sen Trends pro­fi­tie­ren wer­den, wäh­rend die­je­ni­gen, die nicht in Daten­qua­li­tät oder Gover­nance inves­tiert haben, kon­ti­nu­ier­lich hin­ter­her­hin­ken werden.

Die Grund­vor­aus­set­zung für all diese Trends sind gute Daten. Ohne gute Daten kann man keine Co-Pilo­ten ein­set­zen, kei­nen Kon­text hin­zu­fü­gen oder eine effek­tive Daten­ar­chi­tek­tur auf­bauen. Dies ist eine der schwie­rigs­ten Auf­ga­ben, die zu bewäl­ti­gen ist, aber folg­lich auch der größte ROI.

Erfah­ren Sie hier mehr über Lösun­gen im Bereich Daten­ar­chi­tek­tur oder besu­chen Sie eines unse­rer kos­ten­lo­sen Web­i­nare.

Quelle: medium.com