Die Cloud Data Platform von Snowflake ist eines der bevorzugten Tools für Unternehmen, die auf eine moderne Datenarchitektur umsteigen möchten. Wir werden häufig von Kunden nach Snowflake gefragt, und welche Funktionen es von anderen Cloud Data Warehouse-Lösungen wie Amazon Redshift oder Azure Synapse unterscheiden. In diesem Artikel besprechen wir sechs charakteristische und bemerkenswerte Merkmale von Snowflake, die es von anderen Lösungen unterscheiden.
Cloud-Anbieter-unabhängig
Snowflake ist eine Cloud-unabhängige Lösung. Es handelt sich um eine verwaltete Data-Warehouse-Lösung, die bei allen drei Cloud-Anbietern verfügbar ist: AWS, Azure und GCP, unter Beibehaltung der gleichen Endbenutzererfahrung. Kunden können Snowflake problemlos in ihre aktuelle Cloud-Architektur einbinden und haben die Möglichkeit, die Lösung in den Regionen einzusetzen, die für ihr Unternehmen sinnvoll sind.
Skalierbarkeit
Snowflakes Multi-Cluster-Architektur für gemeinsam genutzte Daten trennt die Rechen- und Speicherressourcen voneinander. Diese Strategie ermöglicht es den Benutzern, die Ressourcen zu vergrößern, wenn sie große Datenmengen schneller laden müssen, und sie zu verkleinern, wenn der Prozess abgeschlossen ist, ohne dass der Service unterbrochen wird. Kunden können mit einem besonders kleinen virtuellen Lagerhaus beginnen und es nach Bedarf vergrößern oder verkleinern.
Um den Verwaltungsaufwand so gering wie möglich zu halten, hat Snowflake die Funktionen Auto-Scaling und Auto-Suspend implementiert. Auto-Scaling ermöglicht Snowflake das automatische Starten und Stoppen von Clustern bei unvorhersehbaren ressourcenintensiven Prozessen. Auto-Suspend hingegen stoppt das virtuelle Lager, wenn die Cluster eine bestimmte Zeit lang nicht genutzt wurden. Diese beiden Konzepte bieten Flexibilität, Leistungsoptimierung und Kostenmanagement.
Gleichzeitigkeit und Workload-Trennung
In einer herkömmlichen Data-Warehouse-Lösung würden Benutzer und Prozesse um Ressourcen konkurrieren, was zu Gleichzeitigkeitsproblemen führt. Daher ist es notwendig, ETL/ELT-Aufträge mitten in der Nacht auszuführen, wenn niemand mehr Berichte erstellt. Mit der Multicluster-Architektur von Snowflake ist die Gleichzeitigkeit kein Problem mehr. Einer der Hauptvorteile dieser Architektur ist die Trennung von Arbeitslasten, die auf eigenen Rechenclustern, den so genannten Virtual Warehouses, ausgeführt werden. Abfragen aus einem virtuellen Warehouse haben keine Auswirkungen auf Abfragen aus einem anderen. Mit dedizierten virtuellen Warehouses für Benutzer und Anwendungen können ETL/ELT-Verarbeitung, Datenanalyseoperationen und Berichte ausgeführt werden, ohne dass es zu einem Wettbewerb um Ressourcen kommt.
Nahezu Null-Verwaltung
Snowflake wird als Data Warehouse as a Service (DWaas) bereitgestellt. Es ermöglicht Unternehmen die Einrichtung und Verwaltung einer Lösung ohne nennenswerte Beteiligung von DBA- oder IT-Teams. Es muss weder Software installiert noch Hardware in Betrieb genommen werden. Mit modernen Funktionen wie der automatischen Skalierung, die sowohl die Größe des virtuellen Lagers als auch die Größe des Clusters erhöht, sind die Zeiten der Servergröße und des Cluster-Managements vorbei. Da Snowflake keine Indizes unterstützt, ist ein Tuning der Datenbank oder eine Indizierung der Tabellen nicht erforderlich. Software-Updates werden von Snowflake durchgeführt und neue Funktionen und Patches werden ohne Ausfallzeiten bereitgestellt.
Semi-Strukturierte Daten
Der Aufschwung von NoSQL-Datenbanklösungen entstand aus der Notwendigkeit, halbstrukturierte Daten, in der Regel im JSON-Format, zu verarbeiten. Um JSON zu analysieren, mussten Datenpipelines entwickelt werden, um Attribute zu extrahieren und diese Attribute mit strukturierten Daten zu kombinieren. Die Architektur von Snowflake ermöglicht die Speicherung von strukturierten und halbstrukturierten Daten am selben Zielort durch die Verwendung eines Schemas für den gelesenen Datentyp VARIANT. Der VARIANT-Datentyp kann sowohl strukturierte als auch halbstrukturierte Daten speichern. Wenn Daten geladen werden, analysiert Snowflake die Daten automatisch, extrahiert die Attribute und speichert sie in einem Spaltenformat. Damit entfällt die Notwendigkeit von Datenextraktionspipelines.
Sicherheit
Von der Art und Weise, wie Benutzer auf Snowflake zugreifen, bis hin zur Art und Weise, wie Daten gespeichert werden, verfügt Snowflake über eine breite Palette von Sicherheitsfunktionen. Sie können Netzwerkrichtlinien verwalten, indem Sie IP-Adressen auf eine Whitelist setzen, um den Zugriff auf Ihr Konto zu beschränken. Snowflake unterstützt verschiedene Authentifizierungsmethoden, einschließlich Zwei-Faktor-Authentifizierung und Unterstützung für SSO durch föderierte Authentifizierung. Der Zugriff auf Objekte im Konto wird über ein hybrides Modell der diskretionären Zugriffskontrolle (jedes Objekt hat einen Eigentümer, der den Zugriff auf das Objekt gewährt) und der rollenbasierten Zugriffskontrolle (Privilegien werden Rollen zugewiesen, die dann den Benutzern zugewiesen werden) gesteuert. Dieser hybride Ansatz bietet ein hohes Maß an Kontrolle und Flexibilität. Alle Daten werden automatisch mit einer 256-starken AES-Verschlüsselung verschlüsselt und sowohl bei der Übertragung als auch im Ruhezustand verschlüsselt.
Quelle: onesixsolutions.com
Erfahren Sie mehr über Lösungen im Bereich Snowflake oder besuchen Sie eines unserer kostenlosen Webinare.