Die Cloud Data Plat­form von Snow­flake ist eines der bevor­zug­ten Tools für Unter­neh­men, die auf eine moderne Daten­ar­chi­tek­tur umstei­gen möch­ten. Wir wer­den häu­fig von Kun­den nach Snow­flake gefragt, und wel­che Funk­tio­nen es von ande­ren Cloud Data Ware­house-Lösun­gen wie Ama­zon Reds­hift oder Azure Syn­apse unter­schei­den. In die­sem Arti­kel bespre­chen wir sechs cha­rak­te­ris­ti­sche und bemer­kens­werte Merk­male von Snow­flake, die es von ande­ren Lösun­gen unterscheiden.

Cloud-Anbie­ter-unab­hän­gig

Snow­flake ist eine Cloud-unab­hän­gige Lösung. Es han­delt sich um eine ver­wal­tete Data-Ware­house-Lösung, die bei allen drei Cloud-Anbie­tern ver­füg­bar ist: AWS, Azure und GCP, unter Bei­be­hal­tung der glei­chen End­be­nut­zer­er­fah­rung. Kun­den kön­nen Snow­flake pro­blem­los in ihre aktu­elle Cloud-Archi­tek­tur ein­bin­den und haben die Mög­lich­keit, die Lösung in den Regio­nen ein­zu­set­zen, die für ihr Unter­neh­men sinn­voll sind.

Ska­lier­bar­keit

Snow­flakes Multi-Clus­ter-Archi­tek­tur für gemein­sam genutzte Daten trennt die Rechen- und Spei­cher­res­sour­cen von­ein­an­der. Diese Stra­te­gie ermög­licht es den Benut­zern, die Res­sour­cen zu ver­grö­ßern, wenn sie große Daten­men­gen schnel­ler laden müs­sen, und sie zu ver­klei­nern, wenn der Pro­zess abge­schlos­sen ist, ohne dass der Ser­vice unter­bro­chen wird. Kun­den kön­nen mit einem beson­ders klei­nen vir­tu­el­len Lager­haus begin­nen und es nach Bedarf ver­grö­ßern oder verkleinern.

Um den Ver­wal­tungs­auf­wand so gering wie mög­lich zu hal­ten, hat Snow­flake die Funk­tio­nen Auto-Sca­ling und Auto-Sus­pend imple­men­tiert. Auto-Sca­ling ermög­licht Snow­flake das auto­ma­ti­sche Star­ten und Stop­pen von Clus­tern bei unvor­her­seh­ba­ren res­sour­cen­in­ten­si­ven Pro­zes­sen. Auto-Sus­pend hin­ge­gen stoppt das vir­tu­elle Lager, wenn die Clus­ter eine bestimmte Zeit lang nicht genutzt wur­den. Diese bei­den Kon­zepte bie­ten Fle­xi­bi­li­tät, Leis­tungs­op­ti­mie­rung und Kostenmanagement.

Gleich­zei­tig­keit und Workload-Trennung

In einer her­kömm­li­chen Data-Ware­house-Lösung wür­den Benut­zer und Pro­zesse um Res­sour­cen kon­kur­rie­ren, was zu Gleich­zei­tig­keits­pro­ble­men führt. Daher ist es not­wen­dig, ETL/ELT-Auf­träge mit­ten in der Nacht aus­zu­füh­ren, wenn nie­mand mehr Berichte erstellt. Mit der Mul­ti­clus­ter-Archi­tek­tur von Snow­flake ist die Gleich­zei­tig­keit kein Pro­blem mehr. Einer der Haupt­vor­teile die­ser Archi­tek­tur ist die Tren­nung von Arbeits­las­ten, die auf eige­nen Rechen­clus­tern, den so genann­ten Vir­tual Warehou­ses, aus­ge­führt wer­den. Abfra­gen aus einem vir­tu­el­len Ware­house haben keine Aus­wir­kun­gen auf Abfra­gen aus einem ande­ren. Mit dedi­zier­ten vir­tu­el­len Warehou­ses für Benut­zer und Anwen­dun­gen kön­nen ETL/ELT-Ver­ar­bei­tung, Daten­ana­ly­se­ope­ra­tio­nen und Berichte aus­ge­führt wer­den, ohne dass es zu einem Wett­be­werb um Res­sour­cen kommt.

Nahezu Null-Ver­wal­tung

Snow­flake wird als Data Ware­house as a Ser­vice (DWaas) bereit­ge­stellt. Es ermög­licht Unter­neh­men die Ein­rich­tung und Ver­wal­tung einer Lösung ohne nen­nens­werte Betei­li­gung von DBA- oder IT-Teams. Es muss weder Soft­ware instal­liert noch Hard­ware in Betrieb genom­men wer­den. Mit moder­nen Funk­tio­nen wie der auto­ma­ti­schen Ska­lie­rung, die sowohl die Größe des vir­tu­el­len Lagers als auch die Größe des Clus­ters erhöht, sind die Zei­ten der Ser­ver­größe und des Clus­ter-Manage­ments vor­bei. Da Snow­flake keine Indi­zes unter­stützt, ist ein Tuning der Daten­bank oder eine Indi­zie­rung der Tabel­len nicht erfor­der­lich. Soft­ware-Updates wer­den von Snow­flake durch­ge­führt und neue Funk­tio­nen und Patches wer­den ohne Aus­fall­zei­ten bereitgestellt.

Semi-Struk­tu­rierte Daten

Der Auf­schwung von NoSQL-Daten­bank­lö­sun­gen ent­stand aus der Not­wen­dig­keit, halb­struk­tu­rierte Daten, in der Regel im JSON-For­mat, zu ver­ar­bei­ten. Um JSON zu ana­ly­sie­ren, muss­ten Daten­pipe­lines ent­wi­ckelt wer­den, um Attri­bute zu extra­hie­ren und diese Attri­bute mit struk­tu­rier­ten Daten zu kom­bi­nie­ren. Die Archi­tek­tur von Snow­flake ermög­licht die Spei­che­rung von struk­tu­rier­ten und halb­struk­tu­rier­ten Daten am sel­ben Ziel­ort durch die Ver­wen­dung eines Sche­mas für den gele­se­nen Daten­typ VARIANT. Der VARI­ANT-Daten­typ kann sowohl struk­tu­rierte als auch halb­struk­tu­rierte Daten spei­chern. Wenn Daten gela­den wer­den, ana­ly­siert Snow­flake die Daten auto­ma­tisch, extra­hiert die Attri­bute und spei­chert sie in einem Spal­ten­for­mat. Damit ent­fällt die Not­wen­dig­keit von Datenextraktionspipelines.

Sicher­heit

Von der Art und Weise, wie Benut­zer auf Snow­flake zugrei­fen, bis hin zur Art und Weise, wie Daten gespei­chert wer­den, ver­fügt Snow­flake über eine breite Palette von Sicher­heits­funk­tio­nen. Sie kön­nen Netz­wer­k­richt­li­nien ver­wal­ten, indem Sie IP-Adres­sen auf eine White­list set­zen, um den Zugriff auf Ihr Konto zu beschrän­ken. Snow­flake unter­stützt ver­schie­dene Authen­ti­fi­zie­rungs­me­tho­den, ein­schließ­lich Zwei-Fak­tor-Authen­ti­fi­zie­rung und Unter­stüt­zung für SSO durch föde­rierte Authen­ti­fi­zie­rung. Der Zugriff auf Objekte im Konto wird über ein hybri­des Modell der dis­kre­tio­nä­ren Zugriffs­kon­trolle (jedes Objekt hat einen Eigen­tü­mer, der den Zugriff auf das Objekt gewährt) und der rol­len­ba­sier­ten Zugriffs­kon­trolle (Pri­vi­le­gien wer­den Rol­len zuge­wie­sen, die dann den Benut­zern zuge­wie­sen wer­den) gesteu­ert. Die­ser hybride Ansatz bie­tet ein hohes Maß an Kon­trolle und Fle­xi­bi­li­tät. Alle Daten wer­den auto­ma­tisch mit einer 256-star­ken AES-Ver­schlüs­se­lung ver­schlüs­selt und sowohl bei der Über­tra­gung als auch im Ruhe­zu­stand verschlüsselt.

Quelle: onesixsolutions.com

Erfah­ren Sie mehr über Lösun­gen im Bereich Snow­flake oder besu­chen Sie eines unse­rer kos­ten­lo­sen Web­i­nare.