Was hat sich verändert?

Seit 2021 lau­tet die Frage viel­leicht bes­ser: Was hat sich nicht verändert?

Nach­dem wir aus dem Schat­ten von COVID her­aus­ge­tre­ten sind, hat sich unsere Gesell­schaft mit einer Viel­zahl von Her­aus­for­de­run­gen aus­ein­an­der­ge­setzt – poli­ti­sche und soziale Tur­bu­len­zen, schwan­kende Finanz­märkte, der rasante Fort­schritt bei der künst­li­chen Intel­li­genz und Tay­lor Swift als größ­ter Star der Natio­nal Foot­ball League!?

In den letz­ten drei Jah­ren hat sich auch mein Leben ver­än­dert. Ich habe mich mit den Daten­her­aus­for­de­run­gen ver­schie­de­ner Bran­chen aus­ein­an­der­ge­setzt und mein Fach­wis­sen durch Arbeit und Bera­tung sowohl bei gro­ßen Unter­neh­men als auch bei wen­di­gen Start-ups eingebracht.

Gleich­zei­tig habe ich erheb­li­che Anstren­gun­gen unter­nom­men, um meine Iden­ti­tät als Data Edu­ca­tor zu ent­wi­ckeln und mit eini­gen der renom­mier­tes­ten Unter­neh­men und ange­se­he­nen Uni­ver­si­tä­ten welt­weit zusammengearbeitet.

Im Fol­gen­den fin­den Sie eine kurze Auf­lis­tung des­sen, was mich dazu inspi­riert hat, einen Nach­trag zu mei­nem ursprüng­li­chen Arti­kel aus dem Jahr 2021 zu schreiben:

  • Maß­stab

Unter­neh­men, ob groß oder klein, errei­chen all­mäh­lich einen Daten­um­fang, der bis­her nur Net­flix, Uber, Spo­tify und ande­ren Gigan­ten vor­be­hal­ten war, die ein­zig­ar­tige Dienste mit Daten erstel­len. Das ein­fa­che Zusam­men­schus­tern von Daten­pipe­lines und Cron-Jobs über ver­schie­dene Anwen­dun­gen hin­weg funk­tio­niert nicht mehr, sodass neue Über­le­gun­gen ange­stellt wer­den müs­sen, wenn es um ska­lier­bare Daten­platt­for­men geht.

  • Strea­ming

Obwohl ich das Strea­ming in mei­nem Arti­kel von 2021 kurz erwähnt habe, wird es in der Ver­sion von 2024 erneut im Mit­tel­punkt ste­hen. Ich bin der fes­ten Über­zeu­gung, dass sich Daten mit der Geschwin­dig­keit des Geschäfts bewe­gen müs­sen, und die ein­zige Mög­lich­keit, dies in der heu­ti­gen Zeit wirk­lich zu errei­chen, ist das Strea­ming von Daten.

  • Orches­trie­rung

In mei­nem Arti­kel aus dem Jahr 2021 habe ich die Modu­la­ri­tät als ein Kern­kon­zept für den Auf­bau einer moder­nen Daten­platt­form erwähnt, aber ich habe es ver­säumt, die Bedeu­tung der Daten­or­ches­trie­rung zu beto­nen. Dies­mal habe ich einen gan­zen Abschnitt der Orches­trie­rung gewid­met und erkläre, warum sie sich als natür­li­che Ergän­zung zu einem moder­nen Daten-Stack ent­wi­ckelt hat.

Die Platt­form

Zu mei­ner Über­ra­schung gibt es immer noch keine Lösung eines ein­zel­nen Anbie­ters, die den gesam­ten Daten­be­reich abdeckt, obwohl Snow­flake durch Akqui­si­tio­nen und Ent­wick­lungs­be­mü­hun­gen (Snow­pipe, Snow­park, Snow­plow) sein Bes­tes gege­ben hat. Dat­ab­ricks hat eben­falls bemer­kens­werte Ver­bes­se­run­gen an sei­ner Platt­form vor­ge­nom­men, ins­be­son­dere im Bereich ML/AI.

Alle Kom­po­nen­ten aus den Arti­keln von 2021 wur­den 2024 über­nom­men, aber selbst die bekann­ten Ein­träge sehen drei Jahre spä­ter ein wenig anders aus:

  • Quelle
  • Inte­gra­tion
  • Daten­spei­cher
  • Umwand­lung
  • Orches­trie­rung
  • Dar­stel­lung
  • Trans­port
  • Beob­acht­bar­keit

Inte­gra­tion


Die Kate­go­rie Inte­gra­tion erhält 2024 die größte Auf­wer­tung und wird in drei logi­sche Unter­ka­te­go­rien aufgeteilt:

  • Batch
  • Strea­ming
  • Even­ting

Batch

Die Fähig­keit, ein­ge­hende Daten­si­gnale aus ver­schie­de­nen Quel­len in einem täglichen/stündlichen Inter­vall zu ver­ar­bei­ten, ist das A und O einer jeden Datenplattform.

Strea­ming

Kafka/Confluent ist der König, wenn es um Daten-Strea­ming geht, aber die Arbeit mit Strea­ming-Daten bringt eine Reihe neuer Über­le­gun­gen mit sich, die über The­men, Pro­du­zen­ten, Kon­su­men­ten und Bro­ker hin­aus­ge­hen, z. B. Seria­li­sie­rung, Schema-Regis­trie­run­gen, Stream-Ver­ar­bei­tun­g/­Trans­for­ma­tion und Streaming-Analytik.

Con­flu­ent leis­tet gute Arbeit, indem es alle Kom­po­nen­ten, die für erfolg­rei­ches Daten-Strea­ming erfor­der­lich sind, unter einem Dach ver­eint, aber ich werde auf Strea­ming-Über­le­gun­gen in ande­ren Schich­ten der Daten­platt­form hinweisen.

Die Ein­füh­rung von Daten-Strea­ming erfor­dert nicht zwangs­läu­fig eine kom­plette Über­ar­bei­tung der Struk­tur der Daten­platt­form. Viel­mehr ist die Syn­er­gie zwi­schen Batch- und Strea­ming-Pipe­lines ent­schei­dend für die Bewäl­ti­gung der ver­schie­de­nen Her­aus­for­de­run­gen, die sich Ihrer Daten­platt­form im gro­ßen Maß­stab stel­len. Der Schlüs­sel zur naht­lo­sen Bewäl­ti­gung die­ser Her­aus­for­de­run­gen liegt, wie nicht anders zu erwar­ten, in der Datenorchestrierung.

Even­ting

In vie­len Fäl­len muss die Daten­platt­form selbst für die Gene­rie­rung von First-Party-Daten ver­ant­wort­lich sein oder sie zumin­dest infor­mie­ren. Viele könn­ten argu­men­tie­ren, dass dies eine Auf­gabe für Soft­ware­inge­nieure und App-Ent­wick­ler ist, aber ich sehe eine syn­er­ge­ti­sche Chance darin, dass die Leute, die Ihre Daten­platt­form auf­bauen, auch für Ihre Even­ting-Stra­te­gie ver­ant­wort­lich sind.

Ich unter­scheide Even­ting in zwei Kategorien:

  • Ände­rungs­da­ten­er­fas­sung – CDC


Der Grund­ge­danke von CDC ist die Ver­wen­dung der CRUD-Befehle Ihrer Daten­bank als Daten­strom selbst. Die erste CDC-Platt­form, auf die ich gesto­ßen bin, war ein OSS-Pro­jekt namens Debe­zium, und es gibt viele große und kleine Anbie­ter, die um einen Platz in die­ser neuen Kate­go­rie wetteifern.

  • Klick­ströme – Segment/Snowplow

Die Erstel­lung von Tele­me­trie­da­ten zur Erfas­sung von Kun­den­ak­ti­vi­tä­ten auf Web­sites oder Anwen­dun­gen bezeichne ich als Click Streams. Seg­ment ritt die Click-Stream-Welle zu einer mil­li­ar­den­schwe­ren Über­nahme, Ampli­tude baute Click-Streams in eine kom­plette Ana­ly­se­platt­form ein, und Snow­plow hat in letz­ter Zeit mit sei­nem OSS-Ansatz einen Auf­schwung erlebt, was zeigt, dass die­ser Bereich reif für wei­tere Inno­va­tio­nen und eine even­tu­elle Stan­dar­di­sie­rung ist.

AWS ist füh­rend im Bereich Daten-Strea­ming und bie­tet Vor­la­gen zur Ein­rich­tung des Out­box-Mus­ters und zur Ent­wick­lung von Daten-Strea­ming-Pro­duk­ten wie MSK, SQS, SNS, Lamb­das, Dyna­moDB und anderen.

Data Store
Eine wei­tere bedeu­tende Ände­rung von 2021 bis 2024 liegt in der Ver­schie­bung von „Data Ware­house“ zu „Data Store“, womit dem erwei­ter­ten Daten­bank­ho­ri­zont Rech­nung getra­gen wird, ein­schließ­lich der Zunahme von Data Lakes.

Die Betrach­tung von Data Lakes als Stra­te­gie und nicht als Pro­dukt unter­streicht ihre Rolle als Sta­ging-Bereich für struk­tu­rierte und unstruk­tu­rierte Daten, die mög­li­cher­weise mit Data Warehou­ses inter­agie­ren. Die Aus­wahl der rich­ti­gen Daten­spei­cher­lö­sung für jeden Aspekt des Data Lake ist von ent­schei­den­der Bedeu­tung, aber die über­grei­fende Tech­no­lo­gie­ent­schei­dung beinhal­tet die Ver­knüp­fung und Erkun­dung die­ser Spei­cher, um Roh­da­ten in nach­ge­la­gerte Erkennt­nisse zu verwandeln.

Ver­teilte SQL-Engi­nes wie Presto, Trino und ihre zahl­rei­chen ver­wal­te­ten Gegen­stü­cke (Pan­dio, Star­burst) sind auf­ge­taucht, um Data Lakes zu durch­que­ren und es den Benut­zern zu ermög­li­chen, SQL zu ver­wen­den, um ver­schie­dene Daten über ver­schie­dene phy­si­sche Stand­orte hin­weg zu verbinden.

Um mit den Trends zu gene­ra­ti­ver KI und Large Lan­guage Model Schritt zu hal­ten, sind spe­zia­li­sierte Daten­spei­cher wie Vek­tor­da­ten­ban­ken uner­läss­lich. Dazu gehö­ren Open-Source-Optio­nen wie Wea­viate, ver­wal­tete Lösun­gen wie Pine­cone und viele andere.

Trans­for­ma­tio­nen

Nur wenige Tools haben das Data Engi­nee­ring so revo­lu­tio­niert wie dbt. Seine Aus­wir­kun­gen waren so tief­grei­fend, dass es eine neue Rolle im Daten­be­reich her­vor­ge­bracht hat – den Analytikingenieur.

dbt ist zur ers­ten Wahl für Unter­neh­men jeder Größe gewor­den, die ihre Daten­platt­for­men auto­ma­ti­siert trans­for­mie­ren wol­len. Die Ein­füh­rung von dbt core, der kos­ten­lo­sen Ver­sion des dbt-Pro­dukts, hat ent­schei­dend dazu bei­getra­gen, Daten­in­ge­nieure und Ana­lys­ten mit dbt ver­traut zu machen, die Akzep­tanz zu erhö­hen und die rasche Ent­wick­lung neuer Funk­tio­nen voranzutreiben.

Unter die­sen Funk­tio­nen sticht dbt mesh beson­ders her­vor. Diese Inno­va­tion ermög­licht die Ver­knüp­fung und Refe­ren­zie­rung meh­re­rer dbt-Pro­jekte und ver­setzt Unter­neh­men in die Lage, ihre Daten­trans­for­ma­ti­ons­pipe­lines zu modu­la­ri­sie­ren und ins­be­son­dere die Her­aus­for­de­run­gen von Daten­trans­for­ma­tio­nen in gro­ßem Maß­stab zu bewältigen.

Stream-Trans­for­ma­tio­nen sind im Ver­gleich dazu ein weni­ger aus­ge­reif­ter Bereich. Es gibt zwar eta­blierte und zuver­läs­sige Open-Source-Pro­jekte wie Flink, das seit 2011 exis­tiert, aber ihre Wir­kung ist nicht so groß wie bei Tools, die sich mit „ruhen­den“ Daten befas­sen, wie dbt. Mit der zuneh­men­den Zugäng­lich­keit von Strea­ming-Daten und der fort­schrei­ten­den Ent­wick­lung von Rechen­res­sour­cen wird es jedoch immer wich­ti­ger, den Bereich der Stream-Trans­for­ma­tio­nen voranzutreiben.

Mei­ner Mei­nung nach hängt die Zukunft einer brei­ten Akzep­tanz in die­sem Bereich von Tech­no­lo­gien wie Flink SQL oder neuen ver­wal­te­ten Diens­ten von Anbie­tern wie Con­flu­ent, Deco­da­ble, Ver­verica und Aiven ab. Diese Lösun­gen ermög­li­chen es Ana­lys­ten, eine ver­traute Spra­che wie SQL zu nut­zen und diese Kon­zepte auf Echt­zeit-Daten­ströme anzuwenden.

Orches­trie­rung

Die Über­prü­fung der Kom­po­nen­ten Inges­tion, Data Store und Trans­for­ma­tion beim Auf­bau einer Daten­platt­form im Jahr 2024 ver­deut­licht die gewal­tige Her­aus­for­de­rung der Aus­wahl zwi­schen einer Viel­zahl von Tools, Tech­no­lo­gien und Lösungen.

Mei­ner Erfah­rung nach liegt der Schlüs­sel zum Fin­den der rich­ti­gen Ite­ra­tion für Ihr Sze­na­rio im Expe­ri­men­tie­ren, das Ihnen erlaubt, ver­schie­dene Kom­po­nen­ten aus­zu­tau­schen, bis Sie das gewünschte Ergeb­nis erzielen.

Die Daten­or­ches­trie­rung ist für die Erleich­te­rung die­ser Expe­ri­mente in der Anfangs­phase des Auf­baus einer Daten­platt­form ent­schei­dend gewor­den. Sie ratio­na­li­siert nicht nur den Pro­zess, son­dern bie­tet auch ska­lier­bare Optio­nen zur Anpas­sung an die Ent­wick­lung jedes Unternehmens.

Die Orches­trie­rung wird in der Regel über gerich­tete azy­kli­sche Gra­phen (DAGs) oder Code aus­ge­führt, der Hier­ar­chien, Abhän­gig­kei­ten und Pipe­lines von Auf­ga­ben über meh­rere Sys­teme hin­weg struk­tu­riert. Gleich­zei­tig ver­wal­tet und ska­liert es die Res­sour­cen, die zur Aus­füh­rung die­ser Auf­ga­ben ver­wen­det werden.

Air­flow ist nach wie vor die füh­rende Lösung für die Daten­or­ches­trie­rung und in ver­schie­de­nen ver­wal­te­ten Vari­an­ten wie MWAA, Astro­no­mer und inspi­rie­ren­den Able­gern wie Pre­fect und Dags­ter erhältlich.

Ohne eine Orches­trie­rungs-Engine ist die Fähig­keit, Ihre Daten­platt­form zu modu­la­ri­sie­ren und ihr vol­les Poten­zial aus­zu­schöp­fen, begrenzt. Dar­über hin­aus dient sie als Vor­aus­set­zung für die Ein­füh­rung einer Stra­te­gie zur Daten­be­ob­ach­tung und ‑steue­rung, die eine ent­schei­dende Rolle für den Erfolg der gesam­ten Daten­platt­form spielt.

Dar­stel­lung

Über­ra­schen­der­weise domi­nie­ren tra­di­tio­nelle Daten­vi­sua­li­sie­rungs­platt­for­men wie Tableau, PowerBI, Loo­ker und Qlik wei­ter­hin das Feld. Wäh­rend die Daten­vi­sua­li­sie­rung anfangs ein schnel­les Wachs­tum erlebte, sta­gnierte der Bereich in den letz­ten zehn Jah­ren rela­tiv stark. Eine Aus­nahme von die­sem Trend bil­det Micro­soft mit sei­nen lobens­wer­ten Bemü­hun­gen um Rele­vanz und Inno­va­tion, die durch Pro­dukte wie PowerBI Ser­vice ver­an­schau­licht werden.

Auf­stre­bende Daten­vi­sua­li­sie­rungs­platt­for­men wie Sigma und Super­set schei­nen die natür­li­che Brü­cke in die Zukunft zu sein. Sie ermög­li­chen res­sour­cen­ef­fi­zi­ente On-the-Fly-Trans­for­ma­tio­nen zusam­men mit erst­klas­si­gen Daten­vi­sua­li­sie­rungs­funk­tio­nen. Ein star­ker Neu­ling, Stream­lit, hat jedoch das Poten­zial, alles neu zu definieren.

Stream­lit, eine leis­tungs­starke Python-Biblio­thek zur Erstel­lung von Front-End-Schnitt­stel­len für Python-Code, hat sich eine wert­volle Nische in der Prä­sen­ta­ti­ons­schicht geschaf­fen. Obwohl die tech­ni­sche Lern­kurve im Ver­gleich zu Drag-and-Drop-Tools wie PowerBI und Tableau stei­ler ist, bie­tet Stream­lit unend­li­che Mög­lich­kei­ten, dar­un­ter inter­ak­tive Design­ele­mente, dyna­mi­sches Slicing, die Anzeige von Inhal­ten sowie benut­zer­de­fi­nierte Navi­ga­tion und Branding.

Stream­lit ist so beein­dru­ckend, dass Snow­flake das Unter­neh­men im Jahr 2022 für fast 1 Mil­li­arde US-Dol­lar über­nom­men hat. Wie Snow­flake Stream­lit in seine Ange­bots­pa­lette inte­griert, wird wahr­schein­lich die Zukunft von Snow­flake und der Daten­vi­sua­li­sie­rung ins­ge­samt bestimmen.

Trans­port

Trans­port, Reverse ETL oder Daten­ak­ti­vie­rung – die letzte Etappe der Daten­platt­form – stellt die ent­schei­dende Phase dar, in der die Trans­for­ma­tio­nen und Erkennt­nisse der Platt­form in die Quell­sys­teme und ‑anwen­dun­gen zurück­flie­ßen und die Geschäfts­ab­läufe wirk­lich beeinflussen.

Der­zeit ist High­touch in die­sem Bereich füh­rend. Ihr robus­tes Kern­an­ge­bot inte­griert naht­los Data Warehou­ses mit daten­in­ten­si­ven Anwen­dun­gen. Ins­be­son­dere die stra­te­gi­schen Part­ner­schaf­ten mit Snow­flake und dbt unter­strei­chen das Bestre­ben, als viel­sei­ti­ges Daten­werk­zeug aner­kannt zu wer­den, das sich von rei­nen Mar­ke­ting- und Ver­triebs­wid­gets unterscheidet.

Die Zukunft der Trans­port­schicht scheint dazu bestimmt zu sein, sich mit APIs zu kreu­zen und ein Sze­na­rio zu schaf­fen, in dem API-End­punkte, die über SQL-Abfra­gen gene­riert wer­den, ebenso üblich wer­den wie der Export von .csv-Dateien zum Aus­tausch von Abfra­ge­er­geb­nis­sen. Obwohl die­ser Wan­del abseh­bar ist, gibt es nur wenige Anbie­ter, die sich mit der Kom­mo­di­fi­zie­rung die­ses Bereichs befassen.

Beob­acht­bar­keit

Ähn­lich wie bei der Daten­or­ches­trie­rung hat sich die Beob­acht­bar­keit von Daten als Not­wen­dig­keit her­aus­ge­stellt, um alle von den ver­schie­de­nen Kom­po­nen­ten einer Daten­platt­form erzeug­ten Meta­da­ten zu erfas­sen und zu ver­fol­gen. Diese Meta­da­ten wer­den dann zur Ver­wal­tung, Über­wa­chung und För­de­rung des Wachs­tums der Platt­form verwendet.

Viele Unter­neh­men gehen die Daten­be­ob­ach­tung an, indem sie interne Dash­boards erstel­len oder sich bei der Beob­ach­tung auf einen ein­zi­gen Schwach­punkt, wie die Daten­or­ches­trie­rung, ver­las­sen. Die­ser Ansatz mag zwar für die grund­le­gende Über­wa­chung aus­rei­chen, ist aber bei der Lösung kom­pli­zier­te­rer logi­scher Beob­ach­tungs­her­aus­for­de­run­gen, wie der Ver­fol­gung des Daten­ver­laufs, unzureichend.

Hier kommt Data­Hub ins Spiel, ein popu­lä­res Open-Source-Pro­jekt, das zuneh­mend an Bedeu­tung gewinnt. Sein Gegen­stück, der ver­wal­tete Dienst Acryl, hat seine Wir­kung noch ver­stärkt. Data­Hub zeich­net sich durch die Kon­so­li­die­rung von Meta­da­ten aus ver­schie­de­nen Anwen­dun­gen aus, die an der Daten­be­we­gung in einem Unter­neh­men betei­ligt sind. Es ver­knüpft diese Infor­ma­tio­nen naht­los mit­ein­an­der und ermög­licht es den Benut­zern, KPIs auf einem Dash­board bis zur ursprüng­li­chen Daten­pipe­line und jedem Schritt dazwi­schen zurückzuverfolgen.

Monte Carlo und Great Expec­ta­ti­ons spie­len eine ähn­li­che Rolle bei der Beob­ach­tung von Daten­platt­for­men, aller­dings mit einem stär­ker mei­nungs­be­ton­ten Ansatz. Die wach­sende Popu­la­ri­tät von Begrif­fen wie „End-to-End Data Lineage“ und „Data Con­tracts“ deu­tet auf einen bevor­ste­hen­den Auf­schwung in die­ser Kate­go­rie hin. Wir kön­nen ein signi­fi­kan­tes Wachs­tum sowohl von eta­blier­ten Markt­füh­rern als auch von inno­va­ti­ven New­co­mern erwar­ten, die bereit sind, die Per­spek­ti­ven der Daten­be­ob­ach­tung zu revolutionieren.

Fazit

Der Auf­bau einer Platt­form, die schnell genug ist, um die Anfor­de­run­gen von heute zu erfül­len, und fle­xi­bel genug, um mit den Anfor­de­run­gen von mor­gen zu wach­sen, beginnt mit Modu­la­ri­tät und wird durch Orches­trie­rung ermög­licht. Um die inno­va­tivste Lösung für Ihr spe­zi­fi­sches Pro­blem zu über­neh­men, muss Ihre Platt­form Platz für Daten­lö­sun­gen aller For­men und Grö­ßen bie­ten, egal ob es sich um ein OSS-Pro­jekt, einen neuen ver­wal­te­ten Dienst oder eine Pro­dukt­reihe von AWS handelt.

Die­ser Arti­kel ent­hält viele Ideen, aber letzt­lich liegt die Ent­schei­dung bei Ihnen. Ich bin gespannt dar­auf, wie die­ser Arti­kel Men­schen dazu inspi­riert, neue Mög­lich­kei­ten zu erkun­den und neue Wege zur Lösung von Pro­ble­men mit Daten zu finden.

Quelle: medium.com