Als zweiten Teil der Serie zu Metadatenkatalogen geht es heute um den Enterprise Data Catalog (EDC) von Informatica.
Der EDC ist nur eines von vielen Produkten Informaticas und fügt sich nahtlos in das Ökosystem ein. Auch einzeln ein vollständiges, sinnvoll nutzbares Produkt, so ergeben sich doch Synergien beim Einsatz mehrerer Komponenten: Verbindungen können aus der globalen Verwaltung übernommen werden, Business-Definitionen stammen wahlweise aus Axon oder dem mitgelieferten Analyst. Lineage-Informationen werden automatisch aus Power Center übernommen. Auch die Benutzerverwaltung kann man übergreifend für mehrere Komponenten vornehmen. Außer dieser Integration besticht der EDC mit einer riesigen Auswahl und Flexibilität von unterstützten Quellsystemen und einem Datenprofiling, das mit Data Domains eine Art der intelligenten automatischen Zuweisung von Tags ermöglicht.
Informatica EDC Überblick
Der EDC läuft auf einem Hadoop-Cluster, das heißt verteilt über mehrere Maschinen. Dadurch kann er deren kombinierte Leistungsfähigkeit nutzen und ist gut skalierbar. Die Katalogisierung von vielen großen Systemen ist so kein Problem, und auch nicht die gleichzeitige Nutzung durch viele Mitarbeiter.
Das Webinterface ist sauber in einen Administrationsteil und den eigentlichen Katalog getrennt. Im Admin-Interface lassen sich Ressourcen hinzufügen und Zeitpläne für deren Auslesung definieren. Der Katalog selbst hingegen ist für informationshungrige Anwender gedacht. Die Startseite des Katalogs zeigt dabei genau, um was es geht: Die Suche steht im Mittelpunkt.
Quellen anbinden
Informatica EDC ermöglicht die Katalogisierung einer Vielzahl von Quellen. Diese Umfassen neben relationalen und anderen Datenbanken auch Dateien, darunter sowohl stärker strukturierte Formate wie XML oder JSON, aber auch weniger strukturierte wie Word- oder PDF-Dokumente oder gar Video- und Bilddateien. Dies funktioniert für Dateien an den unterschiedlichsten Orten, wie der Cloud oder einem HDFS. Auch BI-Server lassen sich anbinden.
Der EDC ist hierbei sehr flexibel in der Konfiguration: Über XML-Dateien lassen sich eigene Modelle definieren, die als Grundlage für die Anbindung weiterer Systeme dienen können. So lassen sich auch Systeme katalogisieren, deren Struktur stark von denen der verbreiteten relationalen Datenbanken und anderen unterstützen Quellen abweicht.
Durchsuchen
Die Suche steht im Mittelpunkt des Informatica Enterprise Data Catalog. Einstiegspunkt in den Katalog ist ein zentrales Suchfeld ohne große Ablenkung drumherum. Wer statt Freitext lieber etwas strukturierter vorgeht, bedient sich eines kleinen Tricks: Die Suche nach * gibt alle Objekte zurück. In der nun gezeigten Ergebnisliste kann nach Herzenslust nach diversen Eigenschaften gefiltert werden. Mögliche Filterkriterien stehen übersichtlich in der Seitenleiste links. So kann man die Suche auf bestimmte Objektarten oder Quellen einschränken, oder sich nur Ressourcen anzeigen lassen die in einem bestimmten Zeitraum geändert wurden. Durch die bei den Filtern angegebene Anzahl von passenden Objekten lässt sich direkt abschätzen, ob die Anwendung des Filters bei der Suche weiterhilft oder nicht.
Beim Navigieren durch den Katalog öffnen sich neue Objekte standardmäßig in einer Art Tab in der linken Seitenleiste. Dadurch kann man jederzeit leicht zu einem vorher betrachteten Objekt oder zu den Suchergebnissen zurückkehren.
Data Profiling
Eine besondere Stärke des Informatica EDCs besteht in der möglichen Auswertung der in den Systemen vorhandenen Inhalte. Automatisiert lassen sich Muster in Daten oder auch Ähnlichkeiten von Spalten untereinander erkennen. In den Details zu Tabellen oder Spalten wird so nicht nur der im System definierte Datentyp angezeigt – EDC kann so zum Beispiel selbstständig erkennen, wenn Strings immer die gleiche Länge haben oder bestimmte Muster aufweisen und Datumsangaben darstellen können.
Auch kann der EDC so selbstständig passende Data Domains vorschlagen oder bei hoher Sicherheit direkt zuweisen. Abgesehen von der Ähnlichkeitsanalyse besteht außerdem die Möglichkeit, explizite Regeln für Data Domains zu definieren – oder sie einfach selbst den passenden Objekten zuzuordnen. Mit Composite Data Domains lässt
Business Terms
Auch hierbei ist der Enterprise Data Catalog sehr flexibel. Wird im Unternehmen Informatica Axon eingesetzt, so lassen sich Business-Definitionen hieraus übernehmen. Ansonsten lassen sich Business Terms im mitgelieferten Analyst definieren. Liegen bereits Daten aus anderen Systemen vor, so bietet sich der Import über Excel-Tabellen an – umgekehrt ist auch ein Export der Daten in Excel möglich. Somit können die Mitarbeiter ihnen bereits vorher bekannte und bewährte Software einsetzen.
Befinden sich die Begriffe einmal im Katalog, so können sie mit anderen Katalogobjekten verknüpft werden. So hat der Anwender schnell Gewissheit, was ein bestimmtes Katalogobjekt repräsentiert.
Lineage
Informatica EDC extrahiert selbstständig Lineage-Informationen aus angebundenen Systemen, wie zum Beispiel PowerCenter. Lineage ist hierbei nicht nur für einzelne Tabellen verfügbar, sondern kann auch detaillierter auf Attributebene definiert und angezeigt werden. Ein Klick auf das Tab “Lineage and Impact” zeigt die vielfältigen Optionen, die dem Nutzer zur Verfügung stehen. Es ist möglich tief ins Detail zu gehen oder einen kompakten Überblick zu bekommen.
Weitere Zugriffsmöglichkeiten
So angenehm die Nutzung des eigenen Browsers für den Endanwender ist, für den programmatischen Zugriff ist er nicht gut geeignet. Hierfür gibt es eine andere Möglichkeit: Über die REST-API lassen sich Kataloginhalte sowohl auslesen als auch modifizieren. Dies erleichtert die Arbeit wenn viele Objekte auf einmal geändert werden sollen, oder solche Modifikationen Vorgänge abbilden, die sowieso automatisiert stattfinden. Manch ein Mensch mag vielleicht auch lieber einen programmatischen Ansatz statt der Arbeit im Webinterface und mit Excel-Dateien. Umgekehrt ist die Schnittstelle praktisch, wenn Katalogdaten durch externe Programme weiterverarbeitet werden sollen.
Anpassung
Flexibilität ist ein Grundprinzip des EDCs, und fast alle Teile der Software lassen sich anpassen. Ein Beispiel hierzu ist die vorher schon erwähnte Quellanbindung: Nicht nur ist die Anzahl und Vielfalt der von Haus aus unterstützen Systeme beeindruckend, sondern durch die Möglichkeit, ganz eigene Modelle anzulegen, praktisch unbegrenzt. Somit lassen sich nicht nur klassische Datenbanken katalogisieren, sondern Entitäten ganz unterschiedlicher Art.
Fazit
Der Informatica Enterprise Data Catalog ist ein hochflexibles System, mit dem sich fast alle denkbaren Datenbanken und ähnliche Systeme katalogisieren und durchsuchen lassen. Einmal eingerichtet, bietet EDC einen übersichtlichen Einstieg in die Datenstruktur des Unternehmens. Dabei ist EDC gut mit anderer Software wie PowerCenter oder Axon integriert und bringt viel Intelligenz mit, die den Mitarbeitern die Arbeit erleichtert. Dies zeigt sich insbesondere beim Data Profiling, das Muster und Ähnlichkeiten selbstständig erkennt.
Graphische Visualisierungen findet man im Informatica EDC zum Beispiel bei der Lineage-Ansicht und dem “Relationships”-Tab. Datenkataloge basieren gewöhnlich zu weiten Teilen auf Textinformationen, die sie z.B. in Tabellen präsentieren. Einen neuen, alternativen und ergänzenden Blick auf die Struktur der Unternehmensdaten kann Software wie der saracus Visual Metadata Layer bieten.