„MODERNE“ DATENARCHITEKTUREN
Wenn Sie einen der derzeit führenden Experten für Datentechnik bitten würden, eine „moderne“ Datenarchitektur auf ein Whiteboard zu zeichnen (oder im Internet danach suchen), würden Sie mit Sicherheit etwas wie das Folgende erhalten:
Aber was ist so modern an dieser systembasierten Architektur? Es gibt sie schon seit fast 10 Jahren und sie hat sich kaum verändert. Diese Architektur besteht aus drei Hauptkomponenten:
1. Das Datenlager
2. Der Data Lake
3. Die Data Marts (oder Serving Layer)
Zuerst war da das Data Warehouse. Der Bedarf an separaten Data Marts und Data Lakes entstand, weil diese traditionellen Data Warehouses nicht skaliert werden konnten, um die verschiedenen, konkurrierenden Arbeitslasten zu bewältigen, mit denen sie belastet wurden. Data Marts entstanden, weil das zentrale Data Warehouse nicht skaliert werden konnte, um die verschiedenen Arbeitslasten und die hohen Gleichzeitigkeitsanforderungen der Endbenutzer zu erfüllen. Dann kamen Data Lakes auf, weil das Data Warehouse des Unternehmens nicht in der Lage war, Big Data (in Bezug auf Volumen, Vielfalt und Geschwindigkeit) zu speichern und zu verarbeiten.
Data Lakes und Data Marts wurden seinerzeit geschaffen, um einen echten Bedarf im Bereich der Datentechnik zu decken. Und auch heute noch sind Data Warehouses nicht in der Lage, alle unterschiedlichen Arbeitslasten im Unternehmen zu unterstützen. Dies gilt sogar für die neueren Cloud-Data-Warehouses. Das Ergebnis dieser disparaten Datensysteme sind isolierte Daten, aus denen sich nur schwer ein Geschäftswert ableiten und sicher verwalten lässt.
Aber die Snowflake Cloud Data Platform hat die Datenlandschaft dramatisch verändert und die Notwendigkeit beseitigt, für jede Ihrer Arbeitslasten ein eigenes System zu haben. Snowflake kann Ihr Data Warehouse, Ihre Data Marts und Ihr Data Lake sein. Und das erfordert von uns im Bereich der Datentechnik, dass wir anders über unsere bisherige Vorgehensweise nachdenken. Wir müssen verstehen, warum wir Dinge auf eine bestimmte Art und Weise getan haben, und unsere Annahmen in Frage stellen.
ANDERS ÜBER DATEN DENKEN
In den letzten Jahren ist mir aufgefallen, dass Datenarchitekten, die mit Snowflake zu arbeiten beginnen, immer wieder auf das auf Altsystemen basierende Datenarchitekturdesign zurückgreifen und Snowflake nur als Data Warehouse verwenden oder es vielleicht ein wenig erweitern, um einige Data Marts einzubeziehen. Und die meisten plädieren weiterhin für die Beibehaltung eines separaten dateibasierten Data Lake außerhalb von Snowflake, selbst wenn ein solcher von Grund auf neu aufgebaut wird. Aber warum sollte man weiterhin so denken, wenn Snowflake all diese Systeme ersetzen kann?
Um voranzukommen, müssen wir aufhören, Daten in Bezug auf bestehende Systemtypen zu betrachten, wie z. B. Legacy Data Warehouses, Data Marts und Data Lakes. Das ist nicht hilfreich und führt zu einer unnatürlichen und künstlichen Grenze in einer Unternehmensdatenlandschaft.
Hier ist ein Vorschlag, wie man Daten anders betrachten kann. Auf einer hohen Ebene können Sie alle Unternehmensdaten in die folgenden logischen Datenbereiche einteilen:
Fangen wir also an, über Daten in Form von Zonen wie dieser zu denken, nicht als Systeme. Das alte systembasierte Denken wird die Fachleute für Datentechnik weiterhin davon abhalten in alten Vorgehensweisen gefangen und werden die Datenlandschaft weiterhin fragmentieren. Mit Snowflake besteht keine Notwendigkeit mehr, die Datenbereiche in unterschiedliche, isolierte Datensysteme aufzuteilen:
Warum sollte man noch in diesen Kategorien denken, wenn eine einzige Plattform wie Snowflake diese Silos aufbrechen kann? Anstatt in Systemen zu denken, sollten wir eine einzige Plattform für alle Unternehmensdaten wie diese in Betracht ziehen:
EINE PLATTFORM FÜR ALLE UNTERNEHMENSDATEN
Heutzutage werden verschiedene Bezeichnungen verwendet, um zu kennzeichnen, wo sich die Daten befinden und wie sie verwendet werden, darunter Operational Data Store (ODS), Corporate Information Factory (CIF), Data Warehouse, Data Mart und viele mehr. Jeder Begriff steht für eine andere Art, Daten innerhalb des Unternehmens zu gruppieren. Doch leider stehen diese verschiedenen Datengruppen heute für unterschiedliche Datensysteme. Wir sollten anfangen, Daten in Form von Zonen (oder Datentypen) und nicht als Systeme zu betrachten.
Es war nie das Ziel, die Datenlandschaft in mehrere disparate Systeme aufzuteilen, insbesondere in Data Warehouse, Data Marts und Data Lakes. Wir müssen aufhören, Dinge zu tun, weil sie „schon immer so gemacht wurden“, und überdenken, was wir eigentlich erreichen wollen. Ich bin der Meinung, dass das Ziel eine Plattform für alle Unternehmensdaten sein sollte, zum Beispiel so etwas wie diese:
Die Snowflake Cloud Data Platform kann alle Ihre Data Warehouse‑, Data Lake‑, Data Engineering‑, Datenaustausch‑, Datenanwendungs- und Data ScienceWorkloads unterstützen. Da nur die ersten beiden dieser Arbeitslasten unterstützt werden, können Sie Ihr Data Warehouse, Ihre Data Marts und Ihren Data Lake auf einer einzigen Plattform konsolidieren.
Die meisten anderen „Cloud“-Data-Warehouses wurden vor mehr als 20 Jahren entwickelt und in die Cloud verlagert. Sie sind nicht in der Lage, die Skalierbarkeit der Cloud wirklich zu nutzen. Und die Systeme, die in jüngerer Zeit entwickelt wurden, bieten keine vollständige Datenverwaltung für Unternehmen, die Governance, ACIDkonforme Transaktionen, die gemeinsame Nutzung von Live-Daten, eine globale, Cloudübergreifende Präsenz, ein vollständig verwalteter Dienst usw. Snowflake ist die einzige Cloud-übergreifende, globale Cloud-Datenplattform. Es ist an der Zeit, dass wir anfangen, anders über unsere Daten zu denken.
Quelle: Snowflake
Erfahren Sie hier mehr über Lösungen im Bereich Snowflake oder besuchen Sie eines unserer kostenlosen Webinare.