Wenn Sie Daten von Altsystemen auf eine Cloud-Datenplattform verschieben, müssen Sie die Qualität und die allgemeine Verwaltung dieser Daten sicherstellen.
Bis vor kurzem war Data Governance in erster Linie eine Aufgabe der IT-Abteilung, die sich mit der Katalogisierung von Datenelementen zur Unterstützung der Suche und Ermittlung befasste. Doch im digitalen Zeitalter liegen Daten und ihre Verwaltung in der Verantwortung des gesamten Unternehmens. Datenverwalter (IT) und Datennutzer (der Rest des Unternehmens) müssen in der Lage sein, Daten zu entdecken, zu verstehen und zu nutzen, um Chancen zu nutzen und Risiken zu begrenzen.
Stellen Sie es sich so vor: Die richtigen Daten in der richtigen Qualität, unabhängig von Speicherort oder Format, müssen nur den richtigen Personen für den richtigen Zweck zur Verfügung stehen.
Die Verwirklichung dieses Ziels erfordert eine kontinuierliche strategische Anstrengung. Erforderlich sind eine unternehmensweite Zusammenarbeit und eine Technologie, die einen ganzheitlichen Überblick über die Datenlandschaft bietet, einschließlich der Frage, wo sich die Daten befinden, von welchen Systemen sie genutzt werden und wie man auf sie zugreifen und sie verwalten kann. Data Governance ist notwendig, aber auch kompliziert, so dass die meisten Unternehmen Schwierigkeiten haben, sie zu operationalisieren.
Im Laufe der Zeit führt der Wunsch, die Technologie zu modernisieren, dazu, dass Unternehmen viele verschiedene Systeme mit unterschiedlichen Dateneingabepunkten und Umwandlungsregeln erwerben, wenn Daten in das Unternehmen und durch das Unternehmen hindurchfließen. Diese Tools reichen von Enterprise Service Bus (ESB)-Produkten, Datenintegrationstools, ETL-Tools, prozeduralem Code, APIs, FTP-Prozessen und sogar BI-Berichten, die Daten weiter aggregieren und transformieren. All diese verschiedenen Metadatenquellen bilden ein kompliziertes Geflecht und erschweren die Erstellung eines einfachen visuellen Datenflusses und die Analyse der Auswirkungen.
Organisationen in verschiedenen Sektoren haben schon seit einigen Jahren mit Vorschriften wie HIPAA, SOX und PCI-DSS zu kämpfen. Mit der Verabschiedung der EU-Datenschutzgrundverordnung (GDPR) und ihren strengen Strafen bei Nichteinhaltung rückte Data Governance jedoch ins Rampenlicht und zwang die meisten Unternehmen dazu, ihre Ansätze und Tools neu zu bewerten. Obwohl die Unternehmen Verbesserungen vorgenommen haben, verlassen sie sich immer noch auf überwiegend manuelle Prozesse für die Datenkatalogisierung, die Datenabfolge und die Datenzuordnung und kämpfen mit den Herausforderungen, die die Einführung einer umfassenden und nachhaltigen Data Governance mit sich bringt.
Das Problem ist, dass nur wenige Unternehmen wissen, welche Daten sie haben oder wo sie sich befinden, und dass sie sich schwer tun, bekannte Daten zu integrieren, die in verschiedenen Formaten und zahlreichen Systemen vorliegen, insbesondere wenn sie keine Möglichkeit haben, diese Integrationsprozesse zu automatisieren. Wenn jedoch IT-gesteuertes Datenmanagement und geschäftsorientiertes Data-Governance-Personal personell, prozessual und technologisch zusammenarbeiten, können sie auf der Grundlage eines vollständigen Bestands an zuverlässigen Informationen Entscheidungen treffen und Auswirkungen bestimmen.
DATENMODELLIERUNG IST DIE GRUNDLAGE FÜR DATA GOVERNANCE
Obwohl die Datenmodellierung schon immer der beste Weg war, um komplexe Datenquellen zu verstehen und Designstandards zu automatisieren, ermöglicht die Modellierung heute eine echte Zusammenarbeit innerhalb eines Unternehmens, da sie eine visuelle Quelle der Wahrheit liefert, an der sich alle, einschließlich Datenmanagement- und Geschäftsexperten, orientieren können, um die Governance-Anforderungen zu erfüllen.
Die Datenmodellierung ist auch der beste Weg, um Metadaten zu visualisieren, und das Metadatenmanagement ist der Schlüssel zur Verwaltung und Steuerung Ihrer Daten, damit Sie daraus Erkenntnisse ziehen können. Die Visualisierung geht über das Sammeln und Katalogisieren von Metadaten hinaus, indem sie es allen Datenbeteiligten ermöglicht, komplexe Datenorganisationen aufzuschlüsseln und Datenbeziehungen explizit zu verstehen.
Die neueste Version des erwin Data Modeler (erwin DM) hat eine neue Benutzeroberfläche und viele neue Funktionen, einschließlich der nativen Unterstützung für Snowflake. Außerdem enthält es jetzt den erwin DM Scheduler, mit dem Sie Reverse-Engineering-Jobs (RE) im Voraus definieren und planen können, ohne Ihre erwin DM-Nutzung zu unterbrechen.
Darüber hinaus bietet erwin jetzt erwin DM Connect for DI an, eine Integration zwischen erwin DM und der erwin Data Intelligence Suite (erwin DI). Dieses Angebot ermöglicht es Ihnen, Daten zwischen erwin DM und erwin DI zu synchronisieren, indem Sie den erwin DM Mart Administrator als Schnittstelle nutzen und so eine einzige Metadaten- und Glossarquelle beibehalten.
DATA GOVERNANCE FÜR DIE CLOUD-DATENPLATTFORM VON SNOWFLAKE
Die erwin DI Suite interagiert mit Tools von Drittanbietern über erwin Data Connectors, zu denen erwin Standard Data Connectors und erwin Smart Data Connectors gehören.
erwin Standard-Datenkonnektoren
erwin Standard Data Connectors stellen eine Verbindung zu jeder JDBC-kompatiblen Quelle her, um grundlegende Metadaten zu scannen, die Standard-JDBC-Aufrufe bereitstellen; viele native erwin Standard Data Connectors sind jedoch bereits im Lieferumfang enthalten. Diese nativen Konnektoren verbessern die Leistung und den Umfang der aus den Quellsystemen extrahierten Metadaten.
Die neueste Version der erwin DI Suite scannt nativ Snowflake-Datenbanken, um die Data-at-Rest-Strukturen zu dokumentieren. Die nativen erwin Snowflake Standard Data Connectors scannen und übernehmen automatisch Metadaten aus Snowflake in erwin DI und ermöglichen das Mapping von Daten in und aus Snowflake-Strukturen.
Nachdem Sie die Snowflake-Datenbank konfiguriert und mit den richtigen JDBC-Anmeldeinformationen verbunden haben, können Sie Metadaten sammeln. Die gescannten Metadaten werden im Metadatenmanager unter einem Snowflake-Quellentyp gespeichert. Es werden technische Standard-Metadaten erfasst, z. B. Datentyp, Länge, Genauigkeit und Maßstab. Sie können diese Metadaten mit zusätzlichen Feldern erweitern, z. B. mit Definitionen, geschäftsspezifischen benutzerdefinierten Feldern (User Defined Fields, UDF), Angaben zur Empfindlichkeitsstufe und sogar mit geschäftlichen Begriffen, die im Business Glossary Manager definiert sind, was die Demokratisierung von Daten ermöglicht. (Die Datendemokratisierung wird in einem späteren Blog behandelt).
Eine Schritt-für-Schritt-Anleitung zur Konfiguration, Verbindung und zum Scannen von Snowflake-Metadaten in erwin DI finden Sie im erwin Bookshelf.
erwin Smart Data Konnektoren
Die erwin Smart Data Connectors ermöglichen es Unternehmen, die End-to-End-Abstammung über viele Technologieplattformen von Drittanbietern automatisch zu verbinden, zu katalogisieren und zu dokumentieren. Ein Data-Governance-Programm kann mit Hilfe der erwin-Automatisierung und der in jedem erwin Smart Data Connector vorkonfigurierten Intelligenz die schnellste Zeit bis zum Geschäftswert erreichen.
Das in erwin DI eingebettete Automatisierungs-Framework wird von erwin selbst entwickelt und unterstützt. Es umfasst die branchenweit größte Bibliothek an intelligenten Datenkonnektoren zum Scannen und automatischen Dokumentieren von ETL‑, ELT‑, BI- und prozeduralem Quellcode für Lineage- und Impact-Analysen. Diese automatischen Dokumentationsprozesse werden schrittweise aktualisiert und für den Produktions-Release-Zyklus eines Kunden konfiguriert, so dass erwin DI immer mit der Produktionsumgebung synchronisiert ist.
Der Snowflake SQL Reverse Engineering Smart Data Connector parst Snowflake DML-Anweisungen in Quelle-Ziel-Mappings innerhalb des erwin Metadata Manager-Moduls von erwin DI. Diese Mappings werden verwendet, um Lineage-Analyseberichte zu generieren, die die Datenbewegung in der Snowflake-Umgebung verfolgen können.
erwin Smart Data Connectors können mit jedem Tool integriert werden, das ein SDK bereitstellt. Das SDK kann in Form von XML- oder JSON-Flat-File-Exporten, API-Integration oder direkter Datenbank-Repository-Konnektivität vorliegen. Unabhängig davon, in welcher Form die Snowflake DML vorliegt, kann sie durch die Anwendung der erwin Smart Data Connectors automatisch dokumentiert werden. Beispiele hierfür sind Apache Airflow, Talend oder andere ETL-Tools oder direktes Snowflake-SQL eingebettet in Python-Skripte. Mit der richtigen Kombination von erwin Smart Data Connectors kann die in Ihrer Snowflake-Umgebung dokumentierte Lineage in die Lineage der Unternehmensquellen integriert werden, die in die Cloud-Datenplattform von Snowflake eingespeist werden, um eine echte End-to-End-Transparenz der Datenbewegungen zu gewährleisten.
Quelle: Snowflake
Erfahren Sie hier mehr über Lösungen im Bereich Snowflake oder besuchen Sie eines unserer kostenlosen Webinare.