Snowflake Protection durch Java/Scala- und Python-Isolation

Einführung

Erfahren Sie, wie die Snowflake Data Cloud starke Sicherheit bietet, indem sie Netzwerk-Egress-Proxying, Namespaces, seccomp-bpf und ptrace zur Isolierung von Workloads nutzt.

Die sicherste Tür ist eine Mauer. Sie verhindert den unbefugten Zugang, kann aber auch den autorisierten Zugang behindern. Eine Wand ist leicht zu entwerfen. Es ist schwieriger, eine Tür zu entwerfen, die sowohl sicher als auch nützlich ist. Bei Snowflake dreht sich alles um die Daten: ein einfacher, kontrollierter Zugriff auf nahezu unbegrenzte Datenmengen mit modernsten Tools, Anwendungen, Diensten und Sicherheit. Diese Sicherheit ist jedoch nur von begrenztem Wert, wenn die Kunden feststellen, dass sie eher eine Mauer als eine Tür ist.

Bis vor kurzem bot Snowflake eine relativ begrenzte Anzahl von Programmierprimitiven: SQL-Abfragen und eine feste Anzahl eingebauter Funktionen. Potenzielle Angreifer konnten den neuesten Exploit nicht in Snowflake ausführen, da die Ausführung dieses Codes bis zur Einführung von Snowpark einfach nicht zu den von Snowflake angebotenen Services gehörte. Da Snowflake immer wieder neue Workloads in der Snowflake Data Cloud bereitstellt, mussten die Oberfläche vergrößert werden, um sie unterzubringen. Die Kunden wollten eine Tür. Deswegen wurde Snowpark entwickelt.

Snowpark ermöglicht es Data Cloud-Benutzern, Java- und Python-Bibliotheken von Drittanbietern einzubinden. So können Sie problemlos benutzerdefinierte Funktionen (UDFs), benutzerdefinierte Tabellenfunktionen (UDTFs) und gespeicherte Prozeduren erstellen. Natürlich birgt das zusätzliche Risiken. Um dies zu kompensieren, hat Snowflake sich auf seine Sicherheitsprinzipien konzentriert, Arbeitslasten isoliert und mehrere unabhängige Verteidigungsebenen entwickelt.

Potenzielle Bedrohungen

Die Snowpark-Bibliotheken von Drittanbietern stellen nicht vertrauenswürdigen Code dar, der eine sehr reale Bedrohung für die Sicherheit darstellen könnte. Wenn dieser Code einen Weg findet, sich mit einem feindlichen Endpunkt im Internet zu verbinden, könnte er zusätzliche bösartige Nutzdaten abrufen, Befehle und Kontrollen ausführen und sensible Daten exfiltrieren. Wenn böswillige Akteure in der Lage sind, Prozesse auf Plattformebene zu beobachten oder zu manipulieren, könnten sie Daten beschädigen oder einen Denial-of-Service-Angriff (DoS) durchführen.

Die Sicherheitsarchitektur von Snowflake

Die Abbildung zeigt die sichere Sandbox von Snowflake, die aus fünf Komponenten besteht, die Schutz bieten: Namespaces und cgroups, seccomp-bpf, chroot filesystem, ptrace und Bedrohungserkennung. Innerhalb der Sicherheits-Sandbox befindet sich eine Sprachlaufzeit. Im Inneren der Sprachlaufzeit gibt es eine benutzerdefinierte Funktion. Außerhalb der sicheren Sandbox besteht eine Query Engine. Es gibt einen bidirektionalen Pfeil zwischen der Query-Engine und der Sprachlaufzeit innerhalb der Sandbox.

Wie in der obigen Abbildung dargestellt, setzt Snowflake eine vielschichtige Sicherheitsarchitektur ein, um potenziell bösartige Arbeitslasten zu isolieren. Diese Mechanismen schützen den Kernel, das Netzwerk, das Host-Dateisystem und die Workload-Orchestrierungsprozesse. Diese Architektur umfasst eine Reihe von verschiedenen Tools und Lösungen. Dazu gehören:

Namespaces und cgroups – Namespaces werden zur Prozessisolierung verwendet.
seccomp-bpf – Seccomp BPF (SECure COMPuting with filters) wird zur Einschränkung von Systemaufrufen verwendet.
chroot – chroot isoliert die von Prozessen lokal erreichbaren Dateien.
ptrace – ptrace überwacht Systemaufrufe, die Prozesse tätigen.

Die erste Verteidigungslinie von Snowflake ist die von Snowflake entwickelte Sprachlaufzeit, die Angriffe auf Architekturebene erschwert. Dadurch wird die Anwendung einer Vielzahl potenzieller Taktiken, Techniken und Verfahren (TTPs) entweder behindert oder verhindert.

Die Sprachlaufzeit wird in einem Chroot-Dateisystem ausgeführt, das einen minimalen Satz gemeinsam genutzter Bibliotheken und anderer Abhängigkeiten enthält, die für die Ausführung der UDF erforderlich sind. Außerdem läuft sie innerhalb ihrer eigenen Namespaces, einschließlich Netzwerk, Benutzer, Einhängen, PID, IPC, UTS, CGroup und Zeit. Die Namespace-Isolierung ist ein primärer Mechanismus, der von gängigen Container-basierten Lösungen eingesetzt wird.

Alle Prozesse in der Sandbox-Umgebung unterliegen einem seccomp-bpf-Filter, der die Oberfläche der Kernel-Systemaufrufe minimiert und nur die für die Ausführung erforderlichen UDFs einschließt. Snowflake kontrolliert außerdem Systemaufrufe mit ptrace, das als Teil der Funktionen zur Erkennung von Bedrohungen verwendet wird, um zu erkennen, wann die Nutzung von Systemaufrufen auf bösartige Aktivitäten hinweisen könnte.

Kontrolle des Egress-Verkehrs

Ein Beispiel für einen Rechenknoten mit einer sicheren Sandbox und einer Abfrage-Engine im Inneren. Die sichere Sandbox und die Query-Engine sind durch einen bidirektionalen Pfeil miteinander verbunden. Rechts neben dem Rechenknoten befindet sich ein Egress-Proxy. Es gibt einen unidirektionalen Pfeil von der Query Engine zum Egress Proxy.
Der gesamte Netzwerkverkehr zwischen den Rechenclustern und dem Internet durchläuft einen Egress-Proxy, der Zugriffskontrollrichtlinien durchsetzt und Überwachungsaufgaben übernimmt.

Snowflake wertet den gesamten Netzwerkverkehr von Rechenclustern als nicht vertrauenswürdig. Der Verkehr zu internen Diensten ist auf eine Reihe von authentifizierten Endpunkten beschränkt. Der Verkehr zu externen Netzwerken durchläuft einen Egress-Proxy, der Zugriffskontrollrichtlinien durchsetzt und auf unerwartete Netzwerkaktivitäten überwacht.

Der Egress-Proxy blockiert Versuche, auf nicht autorisierte Endpunkte zuzugreifen, und meldet solche Versuche an das Snowflake Incident Response Team.

Szenario eines Angriffs

Nehmen wir an, dass ein Bedrohungsakteur, den wir als „Malory“ bezeichnen, versucht, unbefugten Zugriff auf einen Rechenknoten in Snowflake zu erhalten, um Kundendaten zu missbrauchen. Sie schreibt ein Python-Skript, das versucht, auf beliebigen Arbeitsspeicher und Speicher auf dem Rechenknoten zuzugreifen. Sie stellt jedoch fest, dass die Mechanismen zur Durchsetzung der Isolierung, einschließlich Namespaces, Prozessisolierung und ein Chroot-Dateisystem, ihre Versuche verhindern, auf Ressourcen außerhalb der eingeschränkten Sandbox-Umgebung zuzugreifen, in der ihr Skript ausgeführt wird.

Malorys nächste Strategie ist der Versuch, aus der Sandbox-Umgebung auszubrechen, also sucht sie nach Möglichkeiten, Container-Escape-Taktiken anzuwenden. Dazu gehören fähigkeitsbasierte Ausbrüche, einhängbare Geräte, Steuersockets und die Ausnutzung von Schwachstellen wie CVE-2019–5736 oder CVE-2020–15257. Sie findet eine gründlich abgeschottete Umgebung vor, in der die Möglichkeit, solche Techniken einzuführen, einfach nicht gegeben ist.

Nehmen wir weiter an, dass Malory eine fortgeschrittene Bedrohungsakteurin ist, die einen Zero-Day-Exploit anwendet, um erfolgreich aus der Sandbox-Umgebung auszubrechen und die Kontrolle über den Compute-Node zu übernehmen. Sie stellt fest, dass der Rechenknoten von den meisten Snowflake-Diensten über Netzwerksicherheitsgruppen, die für ihre VPC gelten, abgeschottet ist. Sie entdeckt einige Endpunkte, auf die sie zugreifen kann, z. B. einen, der Statusinformationen für laufende Abfragen im Konto bereitstellt. Sie benötigt jedoch Anmeldeinformationen, um die internen Authentifizierungsprüfungen zu bewältigen. Die einzigen Anmeldeinformationen, die sie hat, gelten für das spezifische Konto für den Rechenknoten, den sie kompromittiert hat. Da sie das gleiche Konto verwendet, um ihren Angriff zu starten, hat sie keinen Zugriff auf Kundendaten außerhalb ihres eigenen Kontos.

Malory denkt, dass sie zumindest versuchen kann, den Betrieb von Snowflake zu stören, indem sie einen Denial-of-Service-Angriff durchführt, aber sie stellt fest, dass ein Mechanismus zur Begrenzung der Übertragungsrate eine Beeinträchtigung des Dienstes verhindert und das Bedrohungserkennungsteam von Snowflake über potenziell bösartige Aktivitäten im Netzwerk informiert.

An diesem Punkt gibt Malory den direkten Angriff auf die Infrastruktur von Snowflake auf und greift stattdessen die Software-Lieferkette eines Zielbenutzers an, indem sie trojanischen Code in eine Python-Abhängigkeit einschleust und so versucht, die Daten des Zielbenutzers über das Netzwerk zu exfiltrieren. Der Egress-Proxy von Snowflake erkennt den Versuch des Trojaners, eine Verbindung zu einem nicht autorisierten Endpunkt im Internet herzustellen, blockiert die Verbindung und alarmiert das Snowflake-Team zur Erkennung von Bedrohungen über das nicht autorisierte Netzwerkereignis.

Trotz aller Versuche von Malory wurde er vereitelt und/oder entdeckt, bevor er eine Reihe von Versuchen unternehmen konnte, das System zu infiltrieren und großen Schaden anzurichten.

Fazit

Dank dieser Kombination aus sicherheitsorientiertem Design, On-Host-Zugriffskontrolle, Isolierungsmechanismen und einem Egress-Proxy sind Snowflake und seine Kunden in hohem Maße vor potenziell bösartigem Code geschützt, der seinen Weg in UDFs finden könnte. Die Data Cloud hat das Snowpark-Team dazu inspiriert, weiterhin fortschrittliche Technologien zur Sicherung Ihrer Daten zu entwickeln. Obwohl die Entwicklung von Snowpark eine ambitionierte Herausforderung war, zeigt das äußerst positive Feedback zu Art, Größe und Vielfalt der Workloads, die Kunden bereits mit Snowpark ausführen, dass sich der Aufwand für Snowflake gelohnt hat.

Quelle: medium

Erfahren Sie hier mehr über Lösungen im Bereich Snowflak e oder besuchen Sie eines unserer kostenlosen Webinare.

Akzeptieren
Name	YouTube
Anbieter	Google LLC
Zweck	Diese Webseite verwendet Youtube zu Marketingzwecken. Die Daten werden an einen Server in den USA übertragen und dort gespeichert. Die personenbezogenen Daten werden auf Grundlage des Art. 46 und/oder Art. 49 Abs. 1 lit. a) DSGVO übermittelt.
Laufzeit	Daten werden gelöscht, sobald sie für die Bearbeitung nicht mehr benötigt werden.
Weiterführende Infos	https://policies.google.com/privacy

Akzeptieren
Name	hellotrust
Anbieter	Keyed GmbH
Zweck	hellotrust speichert den Zustimmungsstatus des Benutzers für Cookies auf der aktuellen Domain.
Laufzeit	Daten werden gelöscht, sobald sie für die Bearbeitung nicht mehr benötigt werden.
Weiterführende Infos	https://hellotrust.de/datenschutz

Akzeptieren
Name	Google Analytics
Anbieter	Google LLC
Zweck	Diese Webseite verwendet Google Analytics zur Analyse der Websitebenutzung durch Nutzer. Die Daten werden an einen Server von Google in den USA übertragen und dort gespeichert. Die personenbezogenen Daten werden auf Grundlage des Art. 46 und/oder Art. 49 Abs. 1 lit. a) DSGVO übermittelt.
Laufzeit	Daten werden gelöscht, sobald sie für die Bearbeitung nicht mehr benötigt werden. In der Regel werden die Cookies von Google für eine Dauer von 2 Jahren gespeichert.
Weiterführende Infos	https://policies.google.com/privacy

Snowflake Protection durch Java/Scala- und Python-Isolation

Weitere interessante synvert saracus Materialien

Einführung in Cloud Data Warehousing: Schwerpunkt Snowflake vs. Redshift

Best Practices für die Nutzung von Azure für maximale Zuverlässigkeit

Kommende Webinare

Gen AI für das HR Management

Einführung in Cloud Data Warehousing: Schwerpunkt Snowflake vs. Redshift

dbt – viel mehr als nur ein Transform Tool

Snowflake vs. BigQuery

Bringing GenAI to Production

AIOps – IT-Herausforderungen in Echtzeit

Data Ingestion aus SAP-Systemen mit Azure Data Factory

Change Management aus der IT-Perspektive

Einführung in Iceberg Tables – Teil I

Das synvert saracus Data Governance Vorgehensmodell

Integration von Iceberg Tables in Big Data Architekturen und Snowflake – Teil II

Databricks: Beschleunigung von Data Warehousing und ETL mit PySpark

Webinare auf Abruf

Data Catalogs Part I: Einführung in Metadatenmanagement und Data Catalogs

Data Catalogs Part II: Data Catalog in Action: Alation

Data Catalogs Part III: Data Catalog in Action: Informatica Enterprise Data Catalog

Ähnliche Artikel

Der ultimative Leitfaden für eine sinnvolle Nutzung von Daten

Automatisiertes Fehlerlösen mit Databricks und Apache Airflow

Die Datendiskrepanz: Warum die digitale Transformation eine Datenstrategie braucht

Das Problem mit Data Governance

Wir verwenden Cookies

Beitrag teilen

Wei­tere inter­es­sante syn­vert saracus Materialien

Ein­füh­rung in Cloud Data Ware­housing: Schwer­punkt Snow­flake vs. Redshift

Best Prac­ti­ces für die Nut­zung von Azure für maxi­male Zuverlässigkeit

Kommende Webinare

Gen AI für das HR Management

Ein­füh­rung in Cloud Data Ware­housing: Schwer­punkt Snow­flake vs. Redshift

dbt – viel mehr als nur ein Trans­form Tool

Snow­flake vs. BigQuery

Brin­ging GenAI to Production

AIOps – IT-Her­aus­for­de­run­gen in Echtzeit

Data Inges­tion aus SAP-Sys­te­men mit Azure Data Factory

Change Manage­ment aus der IT-Perspektive

Ein­füh­rung in Ice­berg Tables – Teil I

Das syn­vert saracus Data Gover­nance Vorgehensmodell

Inte­gra­tion von Ice­berg Tables in Big Data Archi­tek­tu­ren und Snow­flake – Teil II

Dat­ab­ricks: Beschleu­ni­gung von Data Ware­housing und ETL mit PySpark

Webinare auf Abruf

Data Cata­logs Part I: Ein­füh­rung in Meta­da­ten­ma­nage­ment und Data Catalogs

Data Cata­logs Part II: Data Cata­log in Action: Alation

Data Cata­logs Part III: Data Cata­log in Action: Infor­ma­tica Enter­prise Data Catalog

Ähnliche Artikel

Der ulti­ma­tive Leit­fa­den für eine sinn­volle Nut­zung von Daten

Auto­ma­ti­sier­tes Feh­ler­lö­sen mit Dat­ab­ricks und Apa­che Airflow

Die Daten­dis­kre­panz: Warum die digi­tale Trans­for­ma­tion eine Daten­stra­te­gie braucht

Das Pro­blem mit Data Governance

Abonnieren Sie unseren Newsletter, um aktuelle Infos von synvert saracus zu erhalten

Dan­ke­schön!

Anmel­dung

Um Zugang zu all unse­ren On-Demand-Web­i­na­ren und White­pa­pers zu erhalten!

Ein­log­gen

Stö­bern Sie jeder­zeit in Web­i­nar-Videos und White­pa­pers von syn­vert saracus

Pass­wort zurücksetzen

Pass­wort ver­ges­sen? Geben Sie Ihre E‑Mail-Adresse ein und Sie erhal­ten einen Link zum Zurück­set­zen des Passworts

Wir verwenden Cookies

Weitere interessante synvert saracus Materialien

Einführung in Cloud Data Warehousing: Schwerpunkt Snowflake vs. Redshift

Best Practices für die Nutzung von Azure für maximale Zuverlässigkeit

Einführung in Cloud Data Warehousing: Schwerpunkt Snowflake vs. Redshift

dbt – viel mehr als nur ein Transform Tool

Snowflake vs. BigQuery

Bringing GenAI to Production

AIOps – IT-Herausforderungen in Echtzeit

Data Ingestion aus SAP-Systemen mit Azure Data Factory

Change Management aus der IT-Perspektive

Einführung in Iceberg Tables – Teil I

Das synvert saracus Data Governance Vorgehensmodell

Integration von Iceberg Tables in Big Data Architekturen und Snowflake – Teil II

Databricks: Beschleunigung von Data Warehousing und ETL mit PySpark

Data Catalogs Part I: Einführung in Metadatenmanagement und Data Catalogs

Data Catalogs Part II: Data Catalog in Action: Alation

Data Catalogs Part III: Data Catalog in Action: Informatica Enterprise Data Catalog

Der ultimative Leitfaden für eine sinnvolle Nutzung von Daten

Automatisiertes Fehlerlösen mit Databricks und Apache Airflow

Die Datendiskrepanz: Warum die digitale Transformation eine Datenstrategie braucht

Das Problem mit Data Governance

Abonnieren Sie unseren Newsletter,
um aktuelle Infos von synvert saracus zu erhalten

Dankeschön!

Anmeldung

Um Zugang zu all unseren On-Demand-Webinaren und Whitepapers zu erhalten!

Einloggen

Stöbern Sie jederzeit in Webinar-Videos und Whitepapers von synvert saracus

Passwort zurücksetzen

Passwort vergessen? Geben Sie Ihre E‑Mail-Adresse ein und Sie erhalten einen Link zum Zurücksetzen des Passworts