Als zwei­ten Teil der Serie zu Meta­da­ten­ka­ta­lo­gen geht es heute um den Enter­prise Data Cata­log (EDC) von Informatica.

Der EDC ist nur eines von vie­len Pro­duk­ten Infor­ma­ti­cas und fügt sich naht­los in das Öko­sys­tem ein. Auch ein­zeln ein voll­stän­di­ges, sinn­voll nutz­ba­res Pro­dukt, so erge­ben sich doch Syn­er­gien beim Ein­satz meh­re­rer Kom­po­nen­ten: Ver­bin­dun­gen kön­nen aus der glo­ba­len Ver­wal­tung über­nom­men wer­den, Busi­ness-Defi­ni­tio­nen stam­men wahl­weise aus Axon oder dem mit­ge­lie­fer­ten Ana­lyst. Lineage-Infor­ma­tio­nen wer­den auto­ma­tisch aus Power Cen­ter über­nom­men. Auch die Benut­zer­ver­wal­tung kann man über­grei­fend für meh­rere Kom­po­nen­ten vor­neh­men. Außer die­ser Inte­gra­tion besticht der EDC mit einer rie­si­gen Aus­wahl und Fle­xi­bi­li­tät von unter­stütz­ten Quell­sys­te­men und einem Daten­pro­fil­ing, das mit Data Domains eine Art der intel­li­gen­ten auto­ma­ti­schen Zuwei­sung von Tags ermöglicht.

Infor­ma­tica EDC Überblick

Der Informatica Enterprise Data Catalog Bild1
Abbil­dung 1 Die Start­seite ist auf­ge­räumt mit einem kla­ren Fokus auf die Such­funk­tion. Alle Screen­shots stam­men aus Ver­sion 10.2.0 Build 490.

Der EDC läuft auf einem Hadoop-Clus­ter, das heißt ver­teilt über meh­rere Maschi­nen. Dadurch kann er deren kom­bi­nierte Leis­tungs­fä­hig­keit nut­zen und ist gut ska­lier­bar. Die Kata­lo­gi­sie­rung von vie­len gro­ßen Sys­te­men ist so kein Pro­blem, und auch nicht die gleich­zei­tige Nut­zung durch viele Mitarbeiter.

Das Web­in­ter­face ist sau­ber in einen Admi­nis­tra­ti­ons­teil und den eigent­li­chen Kata­log getrennt. Im Admin-Inter­face las­sen sich Res­sour­cen hin­zu­fü­gen und Zeit­pläne für deren Aus­le­sung defi­nie­ren. Der Kata­log selbst hin­ge­gen ist für infor­ma­ti­ons­hung­rige Anwen­der gedacht. Die Start­seite des Kata­logs zeigt dabei genau, um was es geht: Die Suche steht im Mittelpunkt.

Quel­len anbinden

Der Informatica Enterprise Data Catalog Bild2
Abbil­dung 2 Nur ein klei­ner Teil der mög­li­chen ein­bind­ba­ren Ressourcen

Infor­ma­tica EDC ermög­licht die Kata­lo­gi­sie­rung einer Viel­zahl von Quel­len. Diese Umfas­sen neben rela­tio­na­len und ande­ren Daten­ban­ken auch Dateien, dar­un­ter sowohl stär­ker struk­tu­rierte For­mate wie XML oder JSON, aber auch weni­ger struk­tu­rierte wie Word- oder PDF-Doku­mente oder gar Video- und Bild­da­teien. Dies funk­tio­niert für Dateien an den unter­schied­lichs­ten Orten, wie der Cloud oder einem HDFS. Auch BI-Ser­ver las­sen sich anbinden.

Der EDC ist hier­bei sehr fle­xi­bel in der Kon­fi­gu­ra­tion: Über XML-Dateien las­sen sich eigene Modelle defi­nie­ren, die als Grund­lage für die Anbin­dung wei­te­rer Sys­teme die­nen kön­nen. So las­sen sich auch Sys­teme kata­lo­gi­sie­ren, deren Struk­tur stark von denen der ver­brei­te­ten rela­tio­na­len Daten­ban­ken und ande­ren unter­stüt­zen Quel­len abweicht.

Durch­su­chen

Der Informatica Enterprise Data Catalog Bild3
Abbil­dung 3 Ein * gibt alle Objekte im Kata­log zurück 

Die Suche steht im Mit­tel­punkt des Infor­ma­tica Enter­prise Data Cata­log. Ein­stiegs­punkt in den Kata­log ist ein zen­tra­les Such­feld ohne große Ablen­kung drum­herum. Wer statt Frei­text lie­ber etwas struk­tu­rier­ter vor­geht, bedient sich eines klei­nen Tricks: Die Suche nach * gibt alle Objekte zurück. In der nun gezeig­ten Ergeb­nis­liste kann nach Her­zens­lust nach diver­sen Eigen­schaf­ten gefil­tert wer­den. Mög­li­che Fil­ter­kri­te­rien ste­hen über­sicht­lich in der Sei­ten­leiste links. So kann man die Suche auf bestimmte Objekt­ar­ten oder Quel­len ein­schrän­ken, oder sich nur Res­sour­cen anzei­gen las­sen die in einem bestimm­ten Zeit­raum geän­dert wur­den. Durch die bei den Fil­tern ange­ge­bene Anzahl von pas­sen­den Objek­ten lässt sich direkt abschät­zen, ob die Anwen­dung des Fil­ters bei der Suche wei­ter­hilft oder nicht. 

Beim Navi­gie­ren durch den Kata­log öff­nen sich neue Objekte stan­dard­mä­ßig in einer Art Tab in der lin­ken Sei­ten­leiste. Dadurch kann man jeder­zeit leicht zu einem vor­her betrach­te­ten Objekt oder zu den Such­ergeb­nis­sen zurückkehren.

Der Informatica Enterprise Data Catalog Bild4
Abbil­dung 4 Über die Fil­ter auf der lin­ken Seite las­sen sich die Ergeb­nisse eingrenzen

Data Pro­fil­ing

Der Informatica Enterprise Data Catalog Bild5
Abbil­dung 5 Objekte mit zuge­hö­ri­gen Busi­ness Terms, Data Domains, Wert­ver­tei­lun­gen und Datentypen

Eine beson­dere Stärke des Infor­ma­tica EDCs besteht in der mög­li­chen Aus­wer­tung der in den Sys­te­men vor­han­de­nen Inhalte. Auto­ma­ti­siert las­sen sich Mus­ter in Daten oder auch Ähn­lich­kei­ten von Spal­ten unter­ein­an­der erken­nen. In den Details zu Tabel­len oder Spal­ten wird so nicht nur der im Sys­tem defi­nierte Daten­typ ange­zeigt – EDC kann so zum Bei­spiel selbst­stän­dig erken­nen, wenn Strings immer die glei­che Länge haben oder bestimmte Mus­ter auf­wei­sen und Datums­an­ga­ben dar­stel­len können.

Auch kann der EDC so selbst­stän­dig pas­sende Data Domains vor­schla­gen oder bei hoher Sicher­heit direkt zuwei­sen. Abge­se­hen von der Ähn­lich­keits­ana­lyse besteht außer­dem die Mög­lich­keit, expli­zite Regeln für Data Domains zu defi­nie­ren – oder sie ein­fach selbst den pas­sen­den Objek­ten zuzu­ord­nen. Mit Com­po­site Data Domains lässt 

Busi­ness Terms

Auch hier­bei ist der Enter­prise Data Cata­log sehr fle­xi­bel. Wird im Unter­neh­men Infor­ma­tica Axon ein­ge­setzt, so las­sen sich Busi­ness-Defi­ni­tio­nen hier­aus über­neh­men. Ansons­ten las­sen sich Busi­ness Terms im mit­ge­lie­fer­ten Ana­lyst defi­nie­ren. Lie­gen bereits Daten aus ande­ren Sys­te­men vor, so bie­tet sich der Import über Excel-Tabel­len an – umge­kehrt ist auch ein Export der Daten in Excel mög­lich. Somit kön­nen die Mit­ar­bei­ter ihnen bereits vor­her bekannte und bewährte Soft­ware einsetzen.

Befin­den sich die Begriffe ein­mal im Kata­log, so kön­nen sie mit ande­ren Kata­log­ob­jek­ten ver­knüpft wer­den. So hat der Anwen­der schnell Gewiss­heit, was ein bestimm­tes Kata­log­ob­jekt repräsentiert.

Lineage

Infor­ma­tica EDC extra­hiert selbst­stän­dig Lineage-Infor­ma­tio­nen aus ange­bun­de­nen Sys­te­men, wie zum Bei­spiel Power­Cen­ter. Lineage ist hier­bei nicht nur für ein­zelne Tabel­len ver­füg­bar, son­dern kann auch detail­lier­ter auf Attri­bu­tebene defi­niert und ange­zeigt wer­den. Ein Klick auf das Tab “Lineage and Impact” zeigt die viel­fäl­ti­gen Optio­nen, die dem Nut­zer zur Ver­fü­gung ste­hen. Es ist mög­lich tief ins Detail zu gehen oder einen kom­pak­ten Über­blick zu bekommen.

Der Informatica Enterprise Data Catalog Bild6
Abbil­dung 6 Die­selbe Lineage ein­mal auf Tabellen-Ebene…
Der Informatica Enterprise Data Catalog Bild7
Abbil­dung 7 … und mit den betei­lig­ten Attributen.

Wei­tere Zugriffsmöglichkeiten

So ange­nehm die Nut­zung des eige­nen Brow­sers für den End­an­wen­der ist, für den pro­gram­ma­ti­schen Zugriff ist er nicht gut geeig­net. Hier­für gibt es eine andere Mög­lich­keit: Über die REST-API las­sen sich Kata­lo­g­in­halte sowohl aus­le­sen als auch modi­fi­zie­ren. Dies erleich­tert die Arbeit wenn viele Objekte auf ein­mal geän­dert wer­den sol­len, oder sol­che Modi­fi­ka­tio­nen Vor­gänge abbil­den, die sowieso auto­ma­ti­siert statt­fin­den. Manch ein Mensch mag viel­leicht auch lie­ber einen pro­gram­ma­ti­schen Ansatz statt der Arbeit im Web­in­ter­face und mit Excel-Dateien. Umge­kehrt ist die Schnitt­stelle prak­tisch, wenn Kata­log­da­ten durch externe Pro­gramme wei­ter­ver­ar­bei­tet wer­den sollen.

Anpas­sung

Fle­xi­bi­li­tät ist ein Grund­prin­zip des EDCs, und fast alle Teile der Soft­ware las­sen sich anpas­sen. Ein Bei­spiel hierzu ist die vor­her schon erwähnte Quellan­bin­dung: Nicht nur ist die Anzahl und Viel­falt der von Haus aus unter­stüt­zen Sys­teme beein­dru­ckend, son­dern durch die Mög­lich­keit, ganz eigene Modelle anzu­le­gen, prak­tisch unbe­grenzt. Somit las­sen sich nicht nur klas­si­sche Daten­ban­ken kata­lo­gi­sie­ren, son­dern Enti­tä­ten ganz unter­schied­li­cher Art.

Fazit

Der Infor­ma­tica Enter­prise Data Cata­log ist ein hoch­fle­xi­bles Sys­tem, mit dem sich fast alle denk­ba­ren Daten­ban­ken und ähn­li­che Sys­teme kata­lo­gi­sie­ren und durch­su­chen las­sen. Ein­mal ein­ge­rich­tet, bie­tet EDC einen über­sicht­li­chen Ein­stieg in die Daten­struk­tur des Unter­neh­mens. Dabei ist EDC gut mit ande­rer Soft­ware wie Power­Cen­ter oder Axon inte­griert und bringt viel Intel­li­genz mit, die den Mit­ar­bei­tern die Arbeit erleich­tert. Dies zeigt sich ins­be­son­dere beim Data Pro­fil­ing, das Mus­ter und Ähn­lich­kei­ten selbst­stän­dig erkennt.

Gra­phi­sche Visua­li­sie­run­gen fin­det man im Infor­ma­tica EDC zum Bei­spiel bei der Lineage-Ansicht und dem “Relationships”-Tab. Daten­ka­ta­loge basie­ren gewöhn­lich zu wei­ten Tei­len auf Text­in­for­ma­tio­nen, die sie z.B. in Tabel­len prä­sen­tie­ren. Einen neuen, alter­na­ti­ven und ergän­zen­den Blick auf die Struk­tur der Unter­neh­mens­da­ten kann Soft­ware wie der saracus Visual Meta­data Layer bieten.