Wenn Sie Ver­än­de­run­gen nicht mögen, ist Data Engi­nee­ring nichts für Sie. In die­sem Bereich gibt es kaum etwas, das nicht neu erfun­den wurde.

Die bekann­tes­ten Bei­spiele aus jüngs­ter Zeit sind Snow­flake und Dat­ab­ricks, die das Kon­zept der Daten­bank auf den Kopf gestellt und die Ära des moder­nen Daten­sta­pels ein­ge­läu­tet haben.

Als Teil die­ser Bewe­gung haben Five­tran und dbt die Daten­pipe­line von ETL zu ELT grund­le­gend ver­än­dert. High­touch unter­brach die SaaS-Bewe­gung in dem Ver­such, den Schwer­punkt auf das Data Ware­house zu ver­la­gern. Monte Carlo schloss sich dem Kampf an und sagte: „Viel­leicht ist es nicht der beste Weg, Daten­qua­li­tät zu gewähr­leis­ten, wenn Inge­nieure Unit-Tests manu­ell programmieren.“

Heute stap­fen Daten­in­ge­nieure wei­ter­hin auf hart kodier­ten Pipe­lines und loka­len Ser­vern herum, wäh­rend sie den moder­nen Data stap­le­auf dem Weg der Erleuch­tung erklim­men. Die unver­meid­li­che Kon­so­li­die­rung und der Tief­punkt der Des­il­lu­sio­nie­rung erschei­nen in siche­rer Ent­fer­nung am Horizont.

Und so scheint es fast unfair, dass bereits neue Ideen auf­tau­chen, um die Dis­rup­t­o­ren zu stören:

  • Zero-ETL hat die Daten­ein­gabe im Visier
  • KI und große Sprach­mo­delle könn­ten die Trans­for­ma­tion verändern
  • Daten­pro­dukt-Con­tai­ner haben den Tisch als Kern­bau­stein der Daten im Visier

Müs­sen wir jetzt (wie­der) alles neu auf­bauen? Die Lei­che der Hadoop-Ära ist noch nicht ein­mal ganz so kalt.

Die Ant­wort lau­tet: Ja, natür­lich wer­den wir unsere Daten­sys­teme neu auf­bauen müs­sen. Wahr­schein­lich sogar mehr­mals im Laufe unse­rer Kar­riere. Die wirk­li­chen Fra­gen sind das Warum, das Wann und das Wie (in die­ser Reihenfolge).

Ich behaupte nicht, alle Ant­wor­ten zu ken­nen oder eine Kris­tall­ku­gel zu haben. Aber in die­sem Arti­kel wer­den einige der wich­tigs­ten Ideen der nahen Zukunft, die Teil des post­mo­der­nen Daten­sta­pels wer­den könn­ten, sowie ihre poten­zi­el­len Aus­wir­kun­gen auf die Daten­tech­nik näher untersucht.

Prak­ti­sche Aspekte und Abwägungen

Der moderne Data-Stack ist nicht ent­stan­den, weil er alles bes­ser kann als sein Vor­gän­ger. Es gibt echte Kom­pro­misse. Daten sind grö­ßer und schnel­ler, aber sie sind auch unüber­sicht­li­cher und weni­ger kon­trol­liert. Die Frage der Kos­ten­ef­fi­zi­enz ist noch nicht geklärt.

Der moderne Daten-Stack ist die Num­mer eins, weil er Anwen­dungs­fälle unter­stützt und den Wert von Daten auf eine Art und Weise frei­setzt, die frü­her wenn nicht unmög­lich, dann doch sehr schwie­rig war. Das maschi­nelle Ler­nen hat sich vom Schlag­wort zum Umsatz­brin­ger ent­wi­ckelt. Ana­ly­sen und Expe­ri­mente kön­nen tie­fer gehen, um grö­ßere Ent­schei­dun­gen zu unterstützen.

Das Glei­che gilt für jeden der fol­gen­den Trends. Es wird Vor- und Nach­teile geben, aber die Akzep­tanz wird davon abhän­gen, wie sie oder die noch unent­deckte Idee neue Wege zur Nut­zung von Daten erschlie­ßen. Schauen wir uns jeden Trend genauer an.

Zero-ETL

Was es ist: Eine fal­sche Bezeich­nung, denn die Daten­pipe­line gibt es immer noch.

Heut­zu­tage wer­den die Daten oft von einem Dienst gene­riert und in eine Trans­ak­ti­ons­da­ten­bank geschrie­ben. Es wird eine auto­ma­ti­sche Pipe­line ein­ge­setzt, die nicht nur die Roh­da­ten in das ana­ly­ti­sche Data Ware­house trans­por­tiert, son­dern sie auf dem Weg dort­hin auch noch leicht modifiziert.

APIs expor­tie­ren bei­spiels­weise Daten im JSON-For­mat, und die Inges­tion-Pipe­line muss die Daten nicht nur trans­por­tie­ren, son­dern auch eine leichte Trans­for­ma­tion vor­neh­men, um sicher­zu­stel­len, dass sie in einem Tabel­len­for­mat vor­lie­gen, das in das Data Ware­house gela­den wer­den kann. Andere gän­gige leichte Trans­for­ma­tio­nen, die in der Inges­tion-Phase durch­ge­führt wer­den, sind Daten­for­ma­tie­rung und Deduplizierung.

Sie kön­nen zwar schwe­rere Trans­for­ma­tio­nen durch­füh­ren, indem Sie Pipe­lines in Python hart kodie­ren, und einige haben sich dafür aus­ge­spro­chen, genau das zu tun, um Daten vor­mo­del­liert an das Ware­house zu lie­fern, aber die meis­ten Daten­teams ent­schei­den sich aus Grün­den der Zweck­mä­ßig­keit und Sichtbarkeit/Qualität dagegen.

Zero-ETL ändert die­sen Auf­nah­me­pro­zess, indem es die Trans­ak­ti­ons­da­ten­bank die Daten­be­rei­ni­gung und ‑nor­ma­li­sie­rung durch­füh­ren lässt, bevor sie auto­ma­tisch in das Data Ware­house gela­den wer­den. Es ist wich­tig zu beach­ten, dass die Daten immer noch in einem rela­tiv rohen Zustand sind.

Der­zeit ist diese enge Inte­gra­tion mög­lich, weil die meis­ten Zero-ETL-Archi­tek­tu­ren vor­aus­set­zen, dass sowohl die Trans­ak­ti­ons­da­ten­bank als auch das Data Ware­house vom sel­ben Cloud-Anbie­ter stammen.

Vor­teile: Gerin­gere Latenz­zeit. Keine dop­pelte Daten­spei­che­rung. Eine Feh­ler­quelle weniger.

Nach­teile: Weni­ger Mög­lich­kei­ten, die Behand­lung der Daten wäh­rend der Inges­ti­ons­phase anzu­pas­sen. Gewisse Anbieterbindung.

Wer ist die trei­bende Kraft? AWS ist die trei­bende Kraft hin­ter dem Schlag­wort (Aurora zu Reds­hift), aber GCP (Big­Ta­ble zu Big­Query) und Snow­flake (Unis­tore) bie­ten alle ähn­li­che Funk­tio­nen. Snow­flake (Secure Data Sha­ring) und Dat­ab­ricks (Delta Sha­ring) ver­fol­gen eben­falls das, was sie „No Copy Data Sha­ring“ nen­nen. Die­ser Pro­zess kommt ohne ETL aus und bie­tet statt­des­sen einen erwei­ter­ten Zugriff auf die Daten dort, wo sie gespei­chert sind.

Zweck­mä­ßig­keit und Wert erschlie­ßen Poten­zial: Einer­seits scheint Zero-ETL mit der Unter­stüt­zung der Tech-Gigan­ten und den ein­satz­be­rei­ten Funk­tio­nen nur noch eine Frage der Zeit zu sein. Ande­rer­seits habe ich beob­ach­tet, dass Daten­teams ihre ope­ra­ti­ven und ana­ly­ti­schen Daten­ban­ken eher ent­kop­peln, als sie enger zu inte­grie­ren, um zu ver­hin­dern, dass uner­war­tete Sche­ma­än­de­run­gen den gesam­ten Betrieb zum Erlie­gen bringen.

Diese Neue­rung könnte die Sicht­bar­keit und Ver­ant­wort­lich­keit von Soft­ware­inge­nieu­ren für die Daten, die ihre Dienste pro­du­zie­ren, wei­ter ver­rin­gern. Warum soll­ten sie sich um das Schema küm­mern, wenn die Daten bereits auf dem Weg zum Ware­house sind, kurz nach­dem der Code über­ge­ben wurde?

Da Data Steam­ing und Micro-Batch-Ansätze im Moment die meis­ten Anfor­de­run­gen an „Echtzeit“-Daten zu erfül­len schei­nen, sehe ich den pri­mä­ren geschäft­li­chen Antrieb für diese Art von Inno­va­tion in der Ver­ein­fa­chung der Infrastruktur. Und obwohl das nicht zu ver­ach­ten ist, könnte die Mög­lich­keit, Daten ohne Kopie aus­zu­tau­schen und damit die Hin­der­nisse für lang­wie­rige Sicher­heits­über­prü­fun­gen zu besei­ti­gen, lang­fris­tig zu einer grö­ße­ren Akzep­tanz füh­ren (wobei es sich natür­lich nicht um ein Ent­we­der-Oder handelt).

Eine große Tabelle und große Sprachmodelle

Was es ist: Gegen­wär­tig müs­sen die Stake­hol­der des Unter­neh­mens ihre Anfor­de­run­gen, Metri­ken und Logik den Daten­ex­per­ten mit­tei­len, die das Ganze dann in eine SQL-Abfrage und viel­leicht sogar in ein Dash­board umset­zen. Die­ser Pro­zess nimmt Zeit in Anspruch, selbst wenn alle Daten bereits im Data Ware­house vor­han­den sind. Ganz zu schwei­gen davon, dass Ad-hoc-Daten­an­fra­gen auf der Liste der Lieb­lings­ak­ti­vi­tä­ten des Daten­teams irgendwo zwi­schen Wur­zel­be­hand­lung und Doku­men­ta­tion rangieren.

Es gibt eine ganze Reihe von Start-ups, die dar­auf abzie­len, die Leis­tungs­fä­hig­keit gro­ßer Sprach­mo­delle wie GPT‑4 zu nut­zen, um die­sen Pro­zess zu auto­ma­ti­sie­ren, indem sie den Kun­den die Mög­lich­keit geben, die Daten in ihrer natür­li­chen Spra­che über eine ele­gante Schnitt­stelle abzufragen.

Dies würde den Selbst­be­die­nungs-Ana­ly­se­pro­zess radi­kal ver­ein­fa­chen und die Daten wei­ter demo­kra­ti­sie­ren, aber ange­sichts der Kom­ple­xi­tät der Daten­pipe­lines für fort­schritt­li­chere Ana­ly­sen wird es schwie­rig sein, eine Lösung zu fin­den, die über das grund­le­gende „Abru­fen von Metri­ken“ hinausgeht.

Aber was wäre, wenn diese Kom­ple­xi­tät ver­ein­facht wer­den könnte, indem man alle Roh­da­ten in eine große Tabelle packt?

Das war die Idee von Benn Stancil, einem der bes­ten und fort­schritt­lichs­ten Autoren/Gründer der Daten­bran­che. Nie­mand hat sich den Tod des moder­nen Daten­sta­pels bes­ser vorgestellt.

Als Kon­zept ist es gar nicht so weit her­ge­holt. Einige Daten­teams set­zen bereits eine One Big Table (OBT)-Strategie ein, die sowohl Befür­wor­ter als auch Geg­ner hat.

Die Nut­zung gro­ßer Sprach­mo­delle scheint eine der größ­ten Her­aus­for­de­run­gen bei der Ver­wen­dung einer ein­zi­gen gro­ßen Tabelle zu über­win­den, näm­lich die Schwie­rig­keit der Ent­de­ckung, der Mus­ter­er­ken­nung und des völ­li­gen Man­gels an Orga­ni­sa­tion. Für Men­schen ist es hilf­reich, ein Inhalts­ver­zeich­nis und gut gekenn­zeich­nete Kapi­tel für ihre Geschichte zu haben, aber KI inter­es­siert das nicht.

Vor­teile: Viel­leicht wird das Ver­spre­chen der Selbst­be­die­nung bei der Daten­ana­lyse end­lich ein­ge­löst. Schnel­ler zu Erkennt­nis­sen. Ermög­licht dem Daten­team, mehr Zeit mit der Erschlie­ßung des Daten­werts und dem Auf­bau zu ver­brin­gen und weni­ger Zeit mit der Beant­wor­tung von Ad-hoc-Anfragen.

Nach­teile: Zu viel Frei­heit? Daten­ex­per­ten sind mit den schmerz­haf­ten Eigen­hei­ten von Daten (Zeit­zo­nen! Was ist ein „Konto“?) in einem Maße ver­traut, wie es die meis­ten Geschäfts­in­ter­es­sen­ten nicht sind. Pro­fi­tie­ren wir von einer reprä­sen­ta­ti­ven statt einer direk­ten Datendemokratie?

Wer das vor­an­treibt: Sehr frühe Start­ups wie Del­phi und GetDot.AI. Start­ups wie Nar­ra­tor. Eta­blierte Unter­neh­men wie Ama­zon Quick­Sight, Tableau Ask Data oder ThoughtS­pot, die eine Ver­sion die­ser Tech­no­lo­gie anbieten.

Pra­xis­nähe und Nut­zen erschlie­ßen das Poten­zial: Erfri­schen­der­weise han­delt es sich hier nicht um eine Tech­no­lo­gie auf der Suche nach einem Anwen­dungs­fall. Der Wert und die Effi­zi­enz sind offen­sicht­lich – aber auch die tech­ni­schen Her­aus­for­de­run­gen. Diese Vision befin­det sich noch im Auf­bau und wird mehr Zeit zur Ent­wick­lung benö­ti­gen. Das viel­leicht größte Hin­der­nis für die Ein­füh­rung ist die erfor­der­li­che Stö­rung der Infrastruktur, die für eta­blierte Unter­neh­men wahr­schein­lich zu ris­kant ist.

Daten­pro­dukt-Con­tai­ner

Was es ist: Eine Daten­ta­belle ist der Daten­bau­stein, aus dem Daten­pro­dukte erstellt wer­den. Tat­säch­lich betrach­ten viele Daten­ver­ant­wort­li­che Pro­duk­ti­ons­ta­bel­len als ihre Daten­pro­dukte. Damit eine Daten­ta­belle jedoch wie ein Pro­dukt behan­delt wer­den kann, müs­sen viele Funk­tio­nen wie Zugriffs­ma­nage­ment, Erken­nung und Daten­zu­ver­läs­sig­keit hin­zu­ge­fügt werden.

Die Con­tai­ne­ri­sie­rung ist ein wesent­li­cher Bestand­teil der Micro­ser­vices-Bewe­gung in der Soft­ware­ent­wick­lung. Sie ver­bes­sern die Über­trag­bar­keit, die Abs­trak­tion der Infrastruktur und ermög­li­chen es Unter­neh­men letzt­lich, Micro­ser­vices zu ska­lie­ren. Das Kon­zept der Daten­pro­dukt-Con­tai­ner sieht eine ähn­li­che Con­tai­ne­ri­sie­rung der Daten­ta­belle vor.

Daten­pro­dukt­con­tai­ner kön­nen sich als effek­ti­ver Mecha­nis­mus erwei­sen, um Daten zuver­läs­si­ger und kon­trol­lier­ba­rer zu machen, ins­be­son­dere wenn sie Infor­ma­tio­nen wie die seman­ti­sche Defi­ni­tion, die Daten­her­kunft und Qua­li­täts­me­tri­ken, die mit der zugrunde lie­gen­den Daten­ein­heit ver­bun­den sind, bes­ser sicht­bar machen können.

Vor­teile: Daten­pro­dukt­con­tai­ner schei­nen eine Mög­lich­keit zu sein, die vier Grund­sätze des Data Mesh (föde­rierte Gover­nance, Daten­selbst­be­die­nung, Behand­lung von Daten wie ein Pro­dukt, Domain-First-Infrastruktur) bes­ser zu bün­deln und umzusetzen.

Nach­teile: Erleich­tert oder erschwert die­ses Kon­zept den Unter­neh­men die Ska­lie­rung ihrer Daten­pro­dukte? Eine wei­tere grund­le­gende Frage, die man sich bei vie­len die­ser futu­ris­ti­schen Daten­trends stel­len könnte, lau­tet: Ent­hal­ten die Neben­pro­dukte von Daten­pipe­lines (Code, Daten, Meta­da­ten) einen Wert für Daten­teams, der es wert ist, erhal­ten zu werden?

Wer ist der Trei­ber? Next­data, das von Zha­mak Deh­gahni, dem Erfin­der von Data Mesh, gegrün­dete Startup. Auch Nexla hat sich in die­sem Bereich engagiert.

Prak­ti­ka­bi­li­tät und Nut­zen erschlie­ßen das Poten­zial: Obwohl Next­data erst vor kur­zem aus dem Ver­bor­ge­nen auf­ge­taucht ist und Daten­pro­dukt-Con­tai­ner sich noch in der Ent­wick­lung befin­den, haben viele Daten­teams bereits nach­weis­li­che Ergeb­nisse mit der Imple­men­tie­rung von Daten­net­zen erzielt. Die Zukunft der Daten­ta­belle wird von der genauen Form und Aus­füh­rung die­ser Con­tai­ner abhängen.

Die end­lose Neu­pla­nung des Datenlebenszyklus

Um einen Blick in die Daten­zu­kunft zu wer­fen, müs­sen wir der Daten­ver­gan­gen­heit und ‑gegen­wart über die Schul­ter schauen. Ver­gan­gen­heit, Gegen­wart, Zukunft – Daten­in­fra­struk­tu­ren befin­den sich in einem stän­di­gen Zustand der Unter­bre­chung und Wie­der­ge­burt (obwohl wir viel­leicht noch etwas mehr Chaos brauchen).

Die Bedeu­tung von Data Ware­house hat sich seit der Ein­füh­rung des Begriffs durch Bill Inmon in den 1990er Jah­ren dras­tisch ver­än­dert. ETL-Pipe­lines sind jetzt ELT-Pipe­lines. Der Data Lake ist nicht mehr so amorph, wie er noch vor zwei Jah­ren war.

Mit die­sen Inno­va­tio­nen, die durch den moder­nen Data Stack ein­ge­führt wur­den, haben Daten­in­ge­nieure immer noch eine zen­trale, tech­ni­sche Rolle dabei gespielt, wie Daten bewegt wer­den und wie Daten­kon­su­men­ten auf sie zugrei­fen. Doch einige Ver­än­de­run­gen sind grö­ßer und beängs­ti­gen­der als andere.

Der Begriff Zero-ETL erscheint bedroh­lich, weil er (fälsch­li­cher­weise) den Tod von Pipe­lines sug­ge­riert, und brau­chen wir ohne Pipe­lines Dateningenieure?

Trotz des gan­zen Hypes um die Fähig­keit von ChatGPT, Code zu gene­rie­ren, liegt die­ser Pro­zess immer noch sehr stark in den Hän­den von tech­ni­schen Daten­in­ge­nieu­ren, die ihn über­prü­fen und debug­gen müs­sen. Das Beängs­ti­gende an gro­ßen Sprach­mo­del­len ist, dass sie die Daten­pipe­line oder unsere Bezie­hung zu den Daten­kon­su­men­ten (und die Art und Weise, wie ihnen die Daten bereit­ge­stellt wer­den) grund­le­gend ver­än­dern könnten.

Diese Zukunft, falls und wenn sie ein­tritt, ist jedoch immer noch stark von den Daten­in­ge­nieu­ren abhängig.

Was sich seit Anbe­ginn der Zeit gehal­ten hat, ist der all­ge­meine Lebens­zy­klus von Daten. Sie wer­den aus­ge­ge­ben, geformt, ver­wen­det und dann archi­viert (am bes­ten ver­mei­den wir es, hier über unsere eigene Sterb­lich­keit nachzudenken).

Die zugrun­de­lie­gende Infrastruktur mag sich zwar ändern und Auto­ma­ti­sie­run­gen wer­den Zeit und Auf­merk­sam­keit nach rechts oder links ver­la­gern, aber mensch­li­che Daten­in­ge­nieure wer­den auf abseh­bare Zeit wei­ter­hin eine ent­schei­dende Rolle bei der Gewin­nung von Wer­ten aus Daten spielen.

Das liegt nicht daran, dass künf­tige Tech­no­lo­gien und Inno­va­tio­nen die kom­ple­xen Daten­in­fra­struk­tu­ren von heute nicht ver­ein­fa­chen kön­nen, son­dern daran, dass unser Bedarf und unsere Nut­zung von Daten immer aus­ge­feil­ter und umfang­rei­cher werden.

Big Data ist und wird immer ein Pen­del sein, das hin und her schwingt. Wir machen einen Kapa­zi­täts­sprung, und dann fin­den wir genauso schnell einen Weg, diese Gren­zen zu errei­chen, bis der nächste Sprung erfor­der­lich ist. Trös­ten Sie sich mit die­sem Zyklus – es ist schön, gebraucht zu werden.

Quelle: medium.com

Erfah­ren Sie hier mehr über Lösun­gen im Bereich Data Engi­nee­ring oder besu­chen Sie eines unse­rer kos­ten­lo­sen Web­i­nare.