„MODERNE“ DATENARCHITEKTUREN  

Wenn Sie einen der der­zeit füh­ren­den Experten für Daten­tech­nik bit­ten wür­den, eine „moderne“ Daten­ar­chi­tek­tur auf ein White­board zu zeich­nen (oder im Inter­net danach suchen), wür­den Sie mit Sicher­heit etwas wie das Fol­gende erhalten: 

Aber was ist so modern an die­ser sys­tem­ba­sier­ten Archi­tek­tur? Es gibt sie schon seit fast 10 Jah­ren und sie hat sich kaum ver­än­dert. Diese Archi­tek­tur besteht aus drei Hauptkomponenten: 

1. Das Datenlager 

2. Der Data Lake 

3. Die Data Marts (oder Ser­ving Layer) 

Zuerst war da das Data Ware­house. Der Bedarf an sepa­ra­ten Data Marts und Data Lakes ent­stand, weil diese tra­di­tio­nel­len Data Warehou­ses nicht ska­liert wer­den konn­ten, um die ver­schie­de­nen, kon­kur­rie­ren­den Arbeits­las­ten zu bewäl­ti­gen, mit denen sie belas­tet wur­den. Data Marts ent­stan­den, weil das zen­trale Data Ware­house nicht ska­liert wer­den konnte, um die ver­schie­de­nen Arbeits­las­ten und die hohen Gleich­zei­tig­keits­an­for­de­run­gen der End­be­nut­zer zu erfül­len. Dann kamen Data Lakes auf, weil das Data Ware­house des Unter­neh­mens nicht in der Lage war, Big Data (in Bezug auf Volu­men, Viel­falt und Geschwin­dig­keit) zu spei­chern und zu verarbeiten. 

Data Lakes und Data Marts wur­den sei­ner­zeit geschaf­fen, um einen ech­ten Bedarf im Bereich der Daten­tech­nik zu decken. Und auch heute noch sind Data Warehou­ses nicht in der Lage, alle unter­schied­li­chen Arbeits­las­ten im Unter­neh­men zu unter­stüt­zen. Dies gilt sogar für die neue­ren Cloud-Data-Warehou­ses. Das Ergeb­nis die­ser dis­pa­ra­ten Daten­sys­teme sind iso­lierte Daten, aus denen sich nur schwer ein Geschäfts­wert ablei­ten und sicher ver­wal­ten lässt. 

Aber die Snow­flake Cloud Data Plat­form hat die Daten­land­schaft dra­ma­tisch ver­än­dert und die Not­wen­dig­keit besei­tigt, für jede Ihrer Arbeits­las­ten ein eige­nes Sys­tem zu haben. Snow­flake kann Ihr Data Ware­house, Ihre Data Marts und Ihr Data Lake sein. Und das erfor­dert von uns im Bereich der Daten­tech­nik, dass wir anders über unsere bis­he­rige Vor­ge­hens­weise nach­den­ken. Wir müs­sen ver­ste­hen, warum wir Dinge auf eine bestimmte Art und Weise getan haben, und unsere Annah­men in Frage stellen. 

ANDERS ÜBER DATEN DENKEN  

In den letz­ten Jah­ren ist mir auf­ge­fal­len, dass Daten­ar­chi­tek­ten, die mit Snow­flake zu arbei­ten begin­nen, immer wie­der auf das auf Alt­sys­te­men basie­rende Daten­ar­chi­tek­tur­de­sign zurück­grei­fen und Snow­flake nur als Data Ware­house ver­wen­den oder es viel­leicht ein wenig erwei­tern, um einige Data Marts ein­zu­be­zie­hen. Und die meis­ten plä­die­ren wei­ter­hin für die Bei­be­hal­tung eines sepa­ra­ten datei­ba­sier­ten Data Lake außer­halb von Snow­flake, selbst wenn ein sol­cher von Grund auf neu auf­ge­baut wird. Aber warum sollte man wei­ter­hin so den­ken, wenn Snow­flake all diese Sys­teme erset­zen kann? 

Um vor­an­zu­kom­men, müs­sen wir auf­hö­ren, Daten in Bezug auf bestehende Sys­tem­ty­pen zu betrach­ten, wie z. B. Legacy Data Warehou­ses, Data Marts und Data Lakes. Das ist nicht hilf­reich und führt zu einer unna­tür­li­chen und künst­li­chen Grenze in einer Unternehmensdatenlandschaft. 

Hier ist ein Vor­schlag, wie man Daten anders betrach­ten kann. Auf einer hohen Ebene kön­nen Sie alle Unter­neh­mens­da­ten in die fol­gen­den logi­schen Daten­be­rei­che einteilen: 

Fan­gen wir also an, über Daten in Form von Zonen wie die­ser zu den­ken, nicht als Sys­teme. Das alte sys­tem­ba­sierte Den­ken wird die Fach­leute für Daten­tech­nik wei­ter­hin davon abhal­ten in alten Vor­ge­hens­wei­sen gefan­gen und wer­den die Daten­land­schaft wei­ter­hin frag­men­tie­ren. Mit Snow­flake besteht keine Not­wen­dig­keit mehr, die Daten­be­rei­che in unter­schied­li­che, iso­lierte Daten­sys­teme aufzuteilen: 

Warum sollte man noch in die­sen Kate­go­rien den­ken, wenn eine ein­zige Platt­form wie Snow­flake diese Silos auf­bre­chen kann? Anstatt in Sys­te­men zu den­ken, soll­ten wir eine ein­zige Platt­form für alle Unter­neh­mens­da­ten wie diese in Betracht ziehen: 

EINE PLATTFORM FÜR ALLE UNTERNEHMENSDATEN  

Heut­zu­tage wer­den ver­schie­dene Bezeich­nun­gen ver­wen­det, um zu kenn­zeich­nen, wo sich die Daten befin­den und wie sie ver­wen­det wer­den, dar­un­ter Ope­ra­tio­nal Data Store (ODS), Cor­po­rate Infor­ma­tion Fac­tory (CIF), Data Ware­house, Data Mart und viele mehr. Jeder Begriff steht für eine andere Art, Daten inner­halb des Unter­neh­mens zu grup­pie­ren. Doch lei­der ste­hen diese ver­schie­de­nen Daten­grup­pen heute für unter­schied­li­che Daten­sys­teme. Wir soll­ten anfan­gen, Daten in Form von Zonen (oder Daten­ty­pen) und nicht als Sys­teme zu betrachten. 

Es war nie das Ziel, die Daten­land­schaft in meh­rere dis­pa­rate Sys­teme auf­zu­tei­len, ins­be­son­dere in Data Ware­house, Data Marts und Data Lakes. Wir müs­sen auf­hö­ren, Dinge zu tun, weil sie „schon immer so gemacht wur­den“, und über­den­ken, was wir eigent­lich errei­chen wol­len. Ich bin der Mei­nung, dass das Ziel eine Platt­form für alle Unter­neh­mens­da­ten sein sollte, zum Bei­spiel so etwas wie diese: 

Die Snow­flake Cloud Data Plat­form kann alle Ihre Data Warehouse‑, Data Lake‑, Data Engineering‑, Datenaustausch‑, Daten­an­wen­dungs- und Data Sci­en­ce­Wor­kloads unter­stüt­zen. Da nur die ers­ten bei­den die­ser Arbeits­las­ten unter­stützt wer­den, kön­nen Sie Ihr Data Ware­house, Ihre Data Marts und Ihren Data Lake auf einer ein­zi­gen Platt­form konsolidieren. 

Die meis­ten ande­ren „Cloud“-Data-Warehouses wur­den vor mehr als 20 Jah­ren ent­wi­ckelt und in die Cloud ver­la­gert. Sie sind nicht in der Lage, die Ska­lier­bar­keit der Cloud wirk­lich zu nut­zen. Und die Sys­teme, die in jün­ge­rer Zeit ent­wi­ckelt wur­den, bie­ten keine voll­stän­dige Daten­ver­wal­tung für Unter­neh­men, die Gover­nance, ACID­kon­forme Trans­ak­tio­nen, die gemein­same Nut­zung von Live-Daten, eine glo­bale, Clou­d­über­grei­fende Prä­senz, ein voll­stän­dig ver­wal­te­ter Dienst usw. Snow­flake ist die ein­zige Cloud-über­grei­fende, glo­bale Cloud-Daten­platt­form. Es ist an der Zeit, dass wir anfan­gen, anders über unsere Daten zu denken. 

Quelle: Snow­flake

Erfah­ren Sie hier mehr über Lösun­gen im Bereich Snow­flake oder besu­chen Sie eines unse­rer kos­ten­lo­sen Web­i­nare.