Datenkataloge
Ein Datenkatalog ist ein zentraler Bestandteil jedes datengetriebenen Unternehmens. Als Verzeichnis vielfältiger Datenquellen hilft er unter anderem Data Scientists, schnell und unkompliziert passende Daten im Unternehmen zu finden und zu verstehen.
Datenkataloge gibt es von verschiedenen Anbietern, von denen wir bereits einige im Blog vorgestellt haben, darunter Alation, der Informatica Enterprise Data Catalog, oder der Information Governance Catalog von IBM.
Den Katalogen ist gemein, dass sie technische und fachbezogene Metadaten speichern, verknüpfen und durchsuchbar machen. Die technische Bezeichnung einer Spalte in einer Datenbanktabelle wird beispielsweise durch eine Beschreibung aus Business-Sicht, Tags, Kommentaren und weiteren Informationen wie der Sensitivität der Daten ergänzt. Auch zu übergeordneten Objekten wie den Datenbanken selbst können Informationen hinterlegt werden, und in der Regel werden nicht nur relationale Datenbanken, sondern auch andere Datenquellen wie Dateisysteme oder noSQL-Datenbanken unterstützt.
Dieser grundlegende Funktionsumfang wird ergänzt durch Tool-spezifische Features, wie der SQL-Editor „Compose“ in Alation, oder der einfachen Einbindung von PowerCenter und Axon im Enterprise Data Catalog von Informatica.
Data Governance
Unter Data Governance fällt die Kontrolle und das Management von Daten, z.B. die Definition von Richtlinien und Vorgehensweisen beim Verwenden von Daten, sodass Datenqualität und Datensicherheit gewährleistet werden. Die Beachtung von Standards und Richtlinien ist auch ein wichtiger Faktor zur Erfüllung rechtlicher Vorgaben. Datenkataloge können hierbei in vielfacher Weise helfen und sollten daher Bestandteil einer Data Governance-Strategie sein.
Bevor Richtlinien und Schutzniveaus für Daten aufgestellt und angewendet werden können, müssen die Daten im Katalog identifiziert und kategorisiert werden. Hierbei hilft die Erstellung eines Business Glossars, das im Unternehmen verwendete Begriffe eindeutig definiert. Im Datenkatalog können diese Begriffe dann den Daten zugeordnet werden.
DSGVO / GDPR
Innerhalb Europas ergeben sich insbesondere durch die Datenschutzgrundverordnung (DSGVO, englisch General Data Protection Regulation / GDPR) besondere Anforderungen an Unternehmen, die durch Datenkataloge erfüllt werden können. Aus dem Auskunftsrecht, dem Recht auf Löschung und der Auskunftspflicht zu automatisierten Entscheidungen folgt die Notwendigkeit, alle Datenflüsse zu protokollieren und leicht auffindbar zu machen. Hierbei kann die Lineage-Funktion helfen, die in jedem Datenkatalog in unterschiedlicher Ausprägung vorhanden ist. Sie zeigt im Idealfall sowohl, welche Daten aus welchen Quellen entstanden sind, als auch durch welchen Prozess dies geschehen ist. Im Enterprise Data Catalog können diese Informationen z.B. automatisiert aus PowerCenter übernommen werden; in jedem Fall lassen sie sich manuell oder halb-automatisch über das Nutzerinterface oder eine technische Schnittstelle einfügen.
Unterschiedliche Daten unterliegen unterschiedlichen rechtlichen Anforderungen; so ist das geforderte Schutzniveau für persönlich identifizierbare Daten (PII) in der Regel höher als für rein technische Daten, und auch innerhalb der PII können Unterschiede bestehen, wenn z.B. medizinische Daten verarbeitet werden. Für einige Daten, z.B. nationale Kennziffern, kann auch der Gesetzgeber weitergehende Regelungen treffen. In jedem Fall ist es wichtig, die betreffenden Daten im Datenkatalog entsprechend kennzeichnen zu können. In dezidiert Governance-orientierten Produkten wie dem Information Governance Catalog von IBM können diesen Daten dann entsprechende Regeln und Richtlinien zugeordnet werden.
Auch wichtig hierbei: Wie vererben sich die Anforderungen ggf. auf Daten, die aus diesen Daten erzeugt werden? Oft ergibt sich eine Zuordnung zwischen Daten und Richtlinien auch indirekt über die im Business-Glossar verwendeten Begriffe, die den Daten zugeordnet werden. Das Glossar sollte hierbei hierarchisch angelegt werden können. Einige Kataloge können auch selbstständig durch Datenanalysen bei der Zuordnung helfen; die „Data Domain“-Funktion im Enterprise Data Catalog ist ein Beispiel hierfür. Manuelle Zuordnungen werden durch Data Samples und Statistiken erleichtert.
Eine weitere Möglichkeit, mit Data Governance umzugehen, ist der Einsatz von spezialisierten Data Governance Tools. So kann der Enterprise Data Catalog z.B. mit dem Governance-Tool Axon verbunden werden – Informationen aus Axon können direkt im EDC angezeigt werden, ohne dass der Nutzer das Programm verlassen muss.
Mehr als Compliance
Leicht entsteht der Eindruck, Data Governance sei vor allem ein Hindernis und eine Erschwerung bei der Arbeit mit Daten, aber dies täuscht: Gute Data Governance hilft auch den Mitarbeitern, indem sie Unsicherheiten beseitigt. So lässt sich durch sinnvoll gewählte Richtlinien und die Überwachung ihrer Umsetzung die Datenqualität erhöhen, sodass weniger Zeit für die Aufarbeitung schlechter Daten verwendet werden muss, und die Qualität analytischer Modelle steigt. Daten, die wohldefinierten Begriffen im Business-Glossar zugeordnet sind, lassen sich einfacher mit anderen Daten kombinieren. Regeln und Richtlinien können nicht zuletzt auch technisch wichtige Eigenschaften enthalten, beispielsweise erlaubte Wertebereiche – das erleichtert eine Analyse und Verarbeitung!
Rollenverteilung und Kollaboration
Unterschiedliche Nutzergruppen haben verschiedene Ansprüche. Ein Data Steward, der die korrekte Beschreibung und Zuordnung der Daten im Katalog vornimmt und überwacht, benötigt keinen SQL-Client; ein Data Scientist kann diesen aber gut für erste explorative Datenanalysen nutzen. In Alation ist dieser Unterschied durch „Hats“ (Hüte) abgebildet – jede Nutzerin oder Nutzer setzt den für sie oder ihn passenden Hut auf und kann ihn bei Bedarf wechseln.
Ein Datenkatalog kann auch eingesetzt werden, um Kollaboration zu fördern: Wenn Mitarbeiter Bewertungen und Kommentare zu Datasets abgeben können, kann dies helfen, Qualitäts- und Dokumentationsprobleme aufzudecken sowie den richtigen Fokus zu erhalten. Tools wie der saracus Visual Metadata Layer helfen weiterhin, den Überblick über die Datenlandschaft zu behalten.
Benachrichtigungen
Ein weiteres wichtiges Feature ist die Beobachtung von Katalogobjekten. So kann ein Data Steward schnell sehen, ob sich bei Objekten unter seiner oder ihrer Obhut etwas getan hat; hierzu sind Benachrichtigungen per E‑Mail oder Dashboards nützlich.
Fazit
Datenkataloge sind ein sinnvoller Teil eines Data-Governance-Konzeptes. Bereits ihre Grundfunktion des Katalogisierens von Datenquellen im Unternehmen ist unerlässlich beim Kategorisieren und Auffinden von Daten und Nachvollziehen von Datenflüssen. Sie können ebenfalls genutzt werden, um Richtlinien und Regeln zu dokumentieren und für Mitarbeiter, die mit den Daten arbeiten, zugänglich zu machen. Die am Markt angebotenen Datenkatalogsoftwarelösungen unterscheiden sich hierbei in der spezifischen weitergehenden Funktionalität und Einbindung anderer, vielleicht im Unternehmen bereits vorhandener Tools, und der konkreten Einbindung der Nutzer. Bei der Neuanschaffung eines Katalogs sollte die Auswahl daher immer unter Beachtung sowohl der vorhandenen Infrastruktur als auch der Zielsetzung erfolgen.