Busi­ness Intel­li­gence und Data Engi­nee­ring sind rela­tiv neue Berei­che in der Indus­trie. Unter­neh­mens­ana­ly­sen wer­den in gewis­sem Umfang bereits seit Anfang des 20. Jahr­hun­derts durch­ge­führt. Die Not­wen­dig­keit, große Men­gen an digi­ta­len Infor­ma­tio­nen zu ana­ly­sie­ren, ent­stand jedoch erst im Infor­ma­ti­ons­zeit­al­ter. Es ist ganz ein­fach: Wer über Daten ver­fügt (oder sie sam­melt) und dar­aus bes­sere Erkennt­nisse ablei­tet, wird erfolg­reich sein.

Als Daten­in­ge­nieur ist es inter­es­sant zu ver­ste­hen, wie sich die Ansätze zur Daten­ver­wal­tung im Laufe der Geschichte ver­än­dert haben und wie die Men­schen Pro­bleme im Zusam­men­hang mit der Daten­ver­ar­bei­tung gelöst haben. Las­sen Sie uns kurz in die Geschichte ein­tau­chen und her­aus­fin­den, wie sich die Ansätze zur Daten­ver­wal­tung im Laufe der Zeit ent­wi­ckelt haben.

1980er

In den 1980er Jah­ren ver­füg­ten große Unter­neh­men über rela­tio­nale SQL-Daten­ban­ken, um Abfra­gen durch­zu­füh­ren und Erkennt­nisse zu gewin­nen. Wenn man bedenkt, dass die SQL-Tech­no­lo­gie um 1974 auf­kam, ist es wich­tig zu erken­nen, dass die­ses pri­märe Werk­zeug nun 50 Jahre alt ist. Als die Unter­neh­men bei der rela­tio­na­len Daten­ver­wal­tung für ana­ly­ti­sche Abfra­gen an ihre Gren­zen stie­ßen, wurde das Kon­zept des Busi­ness Data Ware­house eingeführt.

Obwohl es heute bekannt ist, stellte es damals eine bedeu­tende Inno­va­tion dar. Zu den wich­tigs­ten Errun­gen­schaf­ten die­ses Ansat­zes gehörten:

  • Schnel­lere Busi­ness Intel­li­gence (BI)-Prozesse.
  • Fähig­keit, effi­zi­ent mit struk­tu­rier­ten Daten zu arbeiten.

Es gab jedoch auch bemer­kens­werte Nach­teile, wie z. B.:

  • Feh­lende Unter­stüt­zung für halb­struk­tu­rierte und unstruk­tu­rierte Daten.
  • Pro­bleme mit dem Volu­men und der Geschwindigkeit.
  • Poten­zi­ell lange Ver­ar­bei­tungs­zei­ten beim Umgang mit gro­ßen Datenmengen.

Data Ware­house-Lösun­gen umfas­sen heute Tech­no­lo­gien wie Snow­flake, Big­Query, Reds­hift, Azure Syn­apse Ana­ly­tics und andere. In Kom­bi­na­tion mit Orches­trie­rern (wie Air­flow) und Trans­for­ma­ti­ons­schich­ten (wie dbt) ermög­li­chen diese Tools die Erstel­lung leis­tungs­star­ker Analysen.

Diese Dienste haben sich zwar über die 80er Jahre hin­aus deut­lich wei­ter­ent­wi­ckelt und bie­ten her­vor­ra­gende BI-Lösun­gen, doch viele kleine und mitt­lere Unter­neh­men benö­ti­gen keine kom­ple­xe­ren Lösun­gen. Diese Unter­neh­men ver­wen­den häu­fig Data Warehou­ses, um ihre begrenz­ten Ana­ly­se­an­for­de­run­gen zu erfül­len, da sie keine gro­ßen Daten­men­gen sammeln.

2000–2010er

Das Auf­kom­men von Big Data in den 2000er Jah­ren stellte tra­di­tio­nelle Data Warehou­ses vor Her­aus­for­de­run­gen. Unter­neh­men wie Google und Yahoo gene­rier­ten große Men­gen an unstruk­tu­rier­ten Daten, die von struk­tu­rier­ten Data Warehou­ses nicht effek­tiv ver­ar­bei­tet wer­den konn­ten. Dar­über hin­aus machte das Auf­kom­men des maschi­nel­len Ler­nens, für das rie­sige Men­gen unstruk­tu­rier­ter Daten (z. B. Bil­der) benö­tigt wer­den, die Gren­zen der bestehen­den Daten­ver­wal­tungs­sys­teme deutlich.

Als Reak­tion dar­auf wurde das Kon­zept eines Data Lake ein­ge­führt, wobei Google mit Map­Re­duce Pio­nier­ar­beit bei der ver­teil­ten Ver­ar­bei­tung von Big Data leis­tete. Dies führte zur Ent­wick­lung von Hadoop, das eine umfas­sende Lösung mit dem Hadoop Dis­tri­bu­ted File Sys­tem (HDFS) als Spei­cher­ebene bot. Dies ermög­lichte eine effi­zi­ente Spei­che­rung und Ver­ar­bei­tung von Daten mit Map­Re­duce und spä­ter Spark.

Data Lakes boten zwar Vor­teile wie:

  • Kos­ten­ef­fi­zi­en­ter Cloud-Speicher.
  • Unter­stüt­zung für maschi­nel­les Ler­nen (ML).
  • Fle­xi­ble Datenspeicherung.
  • Strea­ming-Daten­ver­ar­bei­tung.

Sie hat­ten aber auch Nach­teile. Dazu gehören:

  • Die feh­lende Unter­stüt­zung von Trans­ak­tio­nen führt dazu, dass beim Anhän­gen von Daten neue Dateien erstellt werden.
  • Lang­same Analyseleistung.
  • Schlechte Daten­zu­ver­läs­sig­keit, die in Dateien nur schwer auf­recht­zu­er­hal­ten ist.

Trotz der Vor­teile von Data Lakes sind her­kömm­li­che Data Warehou­ses nach wie vor ent­schei­dend für Busi­ness Intel­li­gence-Pro­zesse. Data Lakes, die häu­fig auf Cloud-Spei­cher­sys­te­men wie S3, GCS und HDFS basie­ren, haben zusam­men mit Orches­trie­rungs­tools und ver­teil­ter Ver­ar­bei­tung wie Apa­che Spark die Hand­ha­bung gro­ßer Daten­men­gen erleich­tert. Data Warehou­ses spie­len jedoch wei­ter­hin eine wich­tige Rolle bei der effi­zi­en­ten Daten­ver­wal­tung und ‑ana­lyse.

2020er

Wir haben einen lan­gen Weg von der Ver­wen­dung rela­tio­na­ler Daten­ban­ken zur Arbeit mit ver­teil­ten Spei­cher­sys­te­men für die Ver­ar­bei­tung gro­ßer Daten­men­gen zurück­ge­legt. Wäh­rend es so aus­sah, als hät­ten wir das Pro­blem der gro­ßen Daten­men­gen gelöst, tauch­ten neue Her­aus­for­de­run­gen auf. Unter­neh­men kämpf­ten immer noch damit, ihre Daten voll­stän­dig zu nut­zen, und lie­ßen große Men­gen davon ungenutzt.

Im Jahr 2020 stellte Dat­ab­rick ein wich­ti­ges Papier über Data Lake­house als neuen Ansatz für die Daten­ver­wal­tung vor. Die­ser Ansatz kom­bi­niert sowohl Data Ware­house als auch Data Lake in einem ein­zi­gen Sys­tem und nutzt die Kos­ten­ef­fi­zi­enz von Cloud-Spei­cher­diens­ten, wäh­rend er gleich­zei­tig in einer Art „Ware­house“ arbei­tet. Data Lake­house ist beson­ders für große Unter­neh­men von Vor­teil, die sowohl BI-Tools ein­set­zen als auch auf Data Sci­en­ce/ML-Lösun­gen setzen.

Obwohl Dat­ab­ricks das Unter­neh­men ist, das sich für die­sen Ansatz ein­setzt, ist es auch mög­lich, eine sol­che Lösung unab­hän­gig in der Cloud auf­zu­bauen, da die meis­ten Tools Open-Source sind. Bei der Arbeit mit Data-Lake­house-Sys­te­men ist die rich­tige Tech­no­lo­gie auf der Spei­cher­ebene ent­schei­dend. Diese Sys­teme wer­den als Tabel­len­for­mate bezeich­net, wobei Apa­che Ice­berg, Delta Lake und Apa­che Hudi die am häu­figs­ten ver­wen­de­ten sind.

In Bezug auf andere Aspekte ähnelt sie frü­he­ren Lösun­gen, die in der Regel die Ver­wen­dung von Spark für Trans­for­ma­tio­nen beinhal­ten. Das spe­zi­fi­sche Tool­kit kann sich jedoch von Unter­neh­men zu Unter­neh­men und von Cloud-Anbie­tern zu Cloud-Anbie­tern erheb­lich unter­schei­den. Data Lake­hou­ses wer­den stän­dig wei­ter­ent­wi­ckelt, und jedes Jahr kom­men neue Tech­no­lo­gien auf, die die Ver­ar­bei­tung von Big Data erleichtern.

Schluss­fol­ge­rung

Zusam­men­fas­send lässt sich sagen, dass wir die Ent­wick­lung von Daten­ver­wal­tungs­lö­sun­gen, vor allem für die Ana­ly­tik, voll­stän­dig abge­schlos­sen haben. Alle Ansätze haben ihre eige­nen Anwen­dungs­fälle und wer­den von Unter­neh­men und Teams auf der gan­zen Welt aktiv genutzt. Mei­ner Mei­nung nach ist das Data Ware­house am ein­fachs­ten zu ver­ste­hen, da es einer rela­tio­na­len SQL-Daten­bank sehr ähn­lich ist. Data Lake­hou­ses basie­ren jedoch auch auf SQL als eine der Spra­chen, aber die Tech­no­lo­gie ist komplexer.

Wenn Sie eine Ent­schei­dung tref­fen, soll­ten Sie die fol­gen­den Fra­gen berücksichtigen:

  • Haben Sie in Ihrem Unter­neh­men ML- und KI-Tools in Ent­wick­lung und müs­sen Sie ihnen Daten zur Ver­fü­gung stel­len? Wenn nicht, rei­chen struk­tu­rierte Daten für Ihre Pro­bleme wahr­schein­lich aus und Sie kön­nen bei einer Data-Ware­house-Lösung bleiben.
  • Berück­sich­ti­gen Sie den Umfang Ihrer Daten. Die Spei­che­rung kann in Data Warehou­ses teuer sein.
  • Schließ­lich ist die Qua­li­tät Ihres Daten­teams ein wei­te­rer wich­ti­ger Punkt. Bei Data Lake­house benö­ti­gen Sie auf jeden Fall einige Daten­in­ge­nieure, die fast immer teu­rer sind.

Quelle: medium.com