In allen größeren Unternehmen ist mittlerweile eine Vielzahl an Datenbanken für verschiedene Einsatzzwecke vorhanden. Das Auffinden der passenden Daten für eine bestimmte analytische Fragestellung ist damit häufig ein komplexes und zeitaufwändiges Unterfangen. Auch nachdem man eine vielversprechende Tabelle oder ein Schema in einer Datenbank gefunden hat stellen sich weitere Fragen: Wo stammen diese Daten ursprünglich her? Wann wurden sie zuletzt aktualisiert? Ist eine analytische Nutzung rechtlich überhaupt zulässig (DSGVO / GDPR)? Zum Suchen und Finden von Daten sowie zur Beantwortung der damit zusammenhängenden Fragen bietet Collibra mit der Data Intelligence Cloud ein leistungsfähiges, aber auch komplexes Tool an, das wir an dieser Stelle vorstellen möchten.
Grundlagen
Wie der Name schon verrät wird die Collibra Cloud als Software-as-a-Service Produkt angeboten. Der Dienst wird bei AWS, Azure und Google in verschiedenen Datacentern angeboten, sodass sich Vorgaben zum Standort der Daten erfüllen lassen. Als Besonderheit gibt es bei Collibra die Möglichkeit, die eigentliche Datenverarbeitung On-Premise oder in der eigenen Cloudumgebung durchzuführen und nur die Ergebnisse an die Collibra Cloud zu schicken. Insbesondere ist es so möglich, personenbezogene Daten zu identifizieren und zum Beispiel im Profiling und Sampling zu maskieren, ohne dass sie die eigene Umgebung verlassen müssen.
Ein besonderes Merkmal von Collibra sind die sehr umfangreichen und komplexen Konfigurationsmöglichkeiten. Im Operating Model lassen sich vielfältige Assets definieren. Neben typischen Einträgen wie technischen Datenbankobjekten und Business Glossaren, können auch Geschäftsprozesse, Domänen, gesetzliche Vorgaben und selbst erstellte Typen hier dargestellt werden, ebenso wie ihre Beziehungen untereinander. Neben der statischen Abbildung der verschiedenen Businessassets eines Unternehmens gibt es eine umfangreiche Workflowengine. Sie unterstützt das BPMN Modell und hilft, datenbezogene Prozesse im Unternehmen zu automatisieren und zu vereinfachen. So werden zum Beispiel Datenanfragen oder Änderungsvorschläge für Glossareinträge direkt an die richtigen Mitarbeitenden weitergeleitet. Auch Abstimmungen innerhalb von Gremien lassen sich so realisieren und die Ergebnisse direkt zur Umsetzung an das passende Team schicken. Dank der Unterstützung von Java und Groovy-Skripten sind auch hier umfangreiche Anpassungsmöglichkeiten gegeben. Die Verantwortlichkeiten und Berechtigungen der Mitarbeitenden können über globale und Asset-gebundene Rollen fein-granular eingestellt werden.
Die Funktionen des Collibra Tools lassen sich grob in die vier Teilbereiche Data Catalog, Data Lineage, Data Governance und Data Privacy unterteilen.
Data Catalog
Auch wenn hier der Begriff Datenkatalog verwendet wird, sind in Collibra nicht nur Daten im klassischen Sinne (relationale Datenbanken mit Schemas, Tabellen und Attributen) verzeichnet. Andere Objekte wie Geschäftsprozesse oder BI Reports können ebenfalls erfasst werden. Diese sind über die integrierte Suchfunktion auffindbar, die vielfältige Filteroptionen bietet sowie die Möglichkeit, Suchansichten zu speichern und zu teilen. Eine Besonderheit von Collibra ist dabei die Einordnung von Objekten in Communities, Sub-Communities und Domänen. Communities können im Prinzip beliebig definiert werden, sollten aber möglichst an die Data Governance des Unternehmens angepasst sein. Als Beispiele mitgeliefert werden unter anderem eine Business Analyst Community und das Data Governance Council. Innerhalb einer Community gruppieren Domänen Assets des gleichen Typs. In der Business Analyst Community wären das BI Systeme und Reports, im Governance Council Policies, Prozesse und Qualitätsmetriken. Der genaue Zuschnitt wird hier während der Erstellung des Operating Models an das Unternehmen angepasst und gehört zu den ersten Schritten in einem Data Governance Programm. Darüber hinaus können Datenelemente zu Datensets zusammengefasst, verwaltet und beschrieben werden.
Als weitere Besonderheit bietet Collibra eine integrierte „Shopping for Data“ Funktionalität mit einem Einkaufskorb für Datenelemente. Für ein Vorhaben im Analytics Bereich kann ein Data Scientist so Daten in einer intuitiven Oberfläche zusammenstellen. Im Anschluss kann die Nutzungsanfrage direkt aus dem Tool an einen Data Owner verschickt werden, der oder die entsprechend benachrichtigt wird und die Zugriffsanfragen genehmigen oder ablehnen kann.
Des Weiteren ist das umfangreiche Operating Model hervorzuheben, dass konzeptionelle, logische und physische Assets verbindet. Die „Guided Stewardship“ stellt eine vorkonfigurierte Ansicht in Diagrammen dar, die die Beziehungen zwischen den drei Ebenen anschaulich darstellt.
Lineage
Im Bereich der Data Lineage bietet Collibra verschiedene Modellierungsmöglichkeiten. Die technische Lineage stellt die Datenflüsse zwischen technischen Objekten wie Datenbanken, Tabellen, Reports, etc. dar. Diese kann mit den passenden Konnektoren automatisch ausgelesen und als Graph dargestellt werden. Sie zeigt, aus welchen Systemen Daten stammen, in welchen Reports sie verwendet werden und welche Transformationen angewandt werden. In dieser Lineage können auch Systeme angezeigt werden, die technisch nicht an Collibra angeschlossen sind – sie erscheinen dann ausgegraut. Die automatische Bestimmung der technischen Lineage benötigt eine komplexe technische Architektur im Hintergrund, für die Collibra Lineage Server und Harvester bereitstellt. Eine große Zahl an Datenbanken, ETL/ELT- und BI- Tools wird für das Auslesen unterstützt.
Die sogenannte Business Summary Lineage umfasst hingegen nur Objekte im Katalog und stellt eine vereinfachte Diagrammsichtweise für Business Anwender dar. Mit ihr kann man zum Beispiel die Abhängigkeiten eines BI Reports verstehen, ohne technische Details zu benötigen.
Governance
Im Data Governance Bereich fasst Collibra das Business Glossar, den Policy Manager, Reference Data und Assessments zusammen.
Das Business Glossar dient der Definition von wichtigen Geschäftsbegriffen und ihrer Verknüpfung mit technischen Assets. Es soll eine einheitliche Sprache im Unternehmen sicherstellen und häufig auftauchende Fragen beantworten. Wie ist der Begriff „Kunde“ definiert? Wo liegen Stammdaten zu Kunden?
Der Policy Bereich ist eine Besonderheit von Collibra. Hier werden Richtlinien festgelegt, ihr Hintergrund beschrieben und der Status der Umsetzung dokumentiert. Die Assets hier sind zum Beispiel Data Sharing Agreements oder Workflows für Abstimmungsprozesse.
Der Bereich Reference Data umfasst die Dokumentation von Code Values und Code Sets. Hier wird zum Beispiel festgelegt, welche Wertausprägungen für eine Tabellenspalte erlaubt sind oder welches Business Asset durch einen Wert repräsentiert wird. Solche Beziehungen können in Collibra auch explizit dargestellt werden – z.B. um Ländercodes den entsprechenden Business Terms zu Ländern zuzuordnen und festzulegen, dass sie die Wertausprägungen eines bestimmten Attributes sind.
Der umfangreiche Assessment Bereich schlussendlich dient der Risikoeinschätzung für personenbezogene Daten. Die Assessments werden von Nutzern für Assets eingereicht, von Data Stewards ausgeführt und entsprechend im Katalog verzeichnet.
Privacy
Der Data Privacy Bereich von Collibra richtet sich insbesondere an Unternehmen, die die Einhaltung der GDPR und/oder CCPA Regularien beachten müssen. Sie bietet eine beispielhafte Organisationstruktur mit vorkonfigurierten Regelwerken und Codesets.
Zusammenfassung
Wir haben gesehen, dass Collibra nicht nur die von einer Kataloglösung zu erwartenden Standardfunktionen bietet, sondern darüber hinaus sehr umfangreiche Optionen vor allem im Bereich Governance und Privacy. Als weitere Features bietet Collibra zudem umfangreiche Dashboards, eine Data Helpdesk als integrierte Support Funktion für Datennutzer und eine Browserfunktion zur Integration in die tägliche Arbeit. Erfahrungsgemäß ist Collibra ein mächtiges Tool, das nahezu allen Anforderungen gerecht werden kann, dazu aber auch die entsprechende Planung und Konfiguration benötigt.