Daten­ka­ta­loge

Ein Daten­ka­ta­log ist ein zen­tra­ler Bestand­teil jedes daten­ge­trie­be­nen Unter­neh­mens. Als Ver­zeich­nis viel­fäl­ti­ger Daten­quel­len hilft er unter ande­rem Data Sci­en­tists, schnell und unkom­pli­ziert pas­sende Daten im Unter­neh­men zu fin­den und zu verstehen.

Daten­ka­ta­loge gibt es von ver­schie­de­nen Anbie­tern, von denen wir bereits einige im Blog vor­ge­stellt haben, dar­un­ter Ala­tion, der Infor­ma­tica Enter­prise Data Cata­log, oder der Infor­ma­tion Gover­nance Cata­log von IBM.

Den Kata­lo­gen ist gemein, dass sie tech­ni­sche und fach­be­zo­gene Meta­da­ten spei­chern, ver­knüp­fen und durch­such­bar machen. Die tech­ni­sche Bezeich­nung einer Spalte in einer Daten­bank­ta­belle wird bei­spiels­weise durch eine Beschrei­bung aus Busi­ness-Sicht, Tags, Kom­men­ta­ren und wei­te­ren Infor­ma­tio­nen wie der Sen­si­ti­vi­tät der Daten ergänzt. Auch zu über­ge­ord­ne­ten Objek­ten wie den Daten­ban­ken selbst kön­nen Infor­ma­tio­nen hin­ter­legt wer­den, und in der Regel wer­den nicht nur rela­tio­nale Daten­ban­ken, son­dern auch andere Daten­quel­len wie Datei­sys­teme oder noSQL-Daten­ban­ken unterstützt.

Data Governance mit Data Catalogs Bild1
Abbil­dung 1 Eine Daten­bank­ta­belle im Enter­prise Data Cata­log von Infor­ma­tica. Der Kata­log kann anhand von Spal­ten­na­men und Inhal­ten Data Domains zuordnen.

Die­ser grund­le­gende Funk­ti­ons­um­fang wird ergänzt durch Tool-spe­zi­fi­sche Fea­tures, wie der SQL-Edi­tor „Com­pose“ in Ala­tion, oder der ein­fa­chen Ein­bin­dung von Power­Cen­ter und Axon im Enter­prise Data Cata­log von Informatica.

Data Gover­nance

Data Governance mit Data Catalogs Bild2
Abbil­dung 2 Ein Gloss­ar­be­griff in Alation

Unter Data Gover­nance fällt die Kon­trolle und das Manage­ment von Daten, z.B. die Defi­ni­tion von Richt­li­nien und Vor­ge­hens­wei­sen beim Ver­wen­den von Daten, sodass Daten­qua­li­tät und Daten­si­cher­heit gewähr­leis­tet wer­den. Die Beach­tung von Stan­dards und Richt­li­nien ist auch ein wich­ti­ger Fak­tor zur Erfül­lung recht­li­cher Vor­ga­ben. Daten­ka­ta­loge kön­nen hier­bei in viel­fa­cher Weise hel­fen und soll­ten daher Bestand­teil einer Data Gover­nance-Stra­te­gie sein.

Bevor Richt­li­nien und Schutz­ni­veaus für Daten auf­ge­stellt und ange­wen­det wer­den kön­nen, müs­sen die Daten im Kata­log iden­ti­fi­ziert und kate­go­ri­siert wer­den. Hier­bei hilft die Erstel­lung eines Busi­ness Glos­sars, das im Unter­neh­men ver­wen­dete Begriffe ein­deu­tig defi­niert. Im Daten­ka­ta­log kön­nen diese Begriffe dann den Daten zuge­ord­net werden.

DSGVO / GDPR

Inner­halb Euro­pas erge­ben sich ins­be­son­dere durch die Daten­schutz­grund­ver­ord­nung (DSGVO, eng­lisch Gene­ral Data Pro­tec­tion Regu­la­tion / GDPR) beson­dere Anfor­de­run­gen an Unter­neh­men, die durch Daten­ka­ta­loge erfüllt wer­den kön­nen. Aus dem Aus­kunfts­recht, dem Recht auf Löschung und der Aus­kunfts­pflicht zu auto­ma­ti­sier­ten Ent­schei­dun­gen folgt die Not­wen­dig­keit, alle Daten­flüsse zu pro­to­kol­lie­ren und leicht auf­find­bar zu machen. Hier­bei kann die Lineage-Funk­tion hel­fen, die in jedem Daten­ka­ta­log in unter­schied­li­cher Aus­prä­gung vor­han­den ist. Sie zeigt im Ide­al­fall sowohl, wel­che Daten aus wel­chen Quel­len ent­stan­den sind, als auch durch wel­chen Pro­zess dies gesche­hen ist. Im Enter­prise Data Cata­log kön­nen diese Infor­ma­tio­nen z.B. auto­ma­ti­siert aus Power­Cen­ter über­nom­men wer­den; in jedem Fall las­sen sie sich manu­ell oder halb-auto­ma­tisch über das Nut­zer­inter­face oder eine tech­ni­sche Schnitt­stelle einfügen.

Data Governance mit Data Catalogs Bild3
Abbil­dung 3 Lineage in Alation

Unter­schied­li­che Daten unter­lie­gen unter­schied­li­chen recht­li­chen Anfor­de­run­gen; so ist das gefor­derte Schutz­ni­veau für per­sön­lich iden­ti­fi­zier­bare Daten (PII) in der Regel höher als für rein tech­ni­sche Daten, und auch inner­halb der PII kön­nen Unter­schiede bestehen, wenn z.B. medi­zi­ni­sche Daten ver­ar­bei­tet wer­den. Für einige Daten, z.B. natio­nale Kenn­zif­fern, kann auch der Gesetz­ge­ber wei­ter­ge­hende Rege­lun­gen tref­fen. In jedem Fall ist es wich­tig, die betref­fen­den Daten im Daten­ka­ta­log ent­spre­chend kenn­zeich­nen zu kön­nen. In dezi­diert Gover­nance-ori­en­tier­ten Pro­duk­ten wie dem Infor­ma­tion Gover­nance Cata­log von IBM kön­nen die­sen Daten dann ent­spre­chende Regeln und Richt­li­nien zuge­ord­net werden.

Auch wich­tig hier­bei: Wie ver­er­ben sich die Anfor­de­run­gen ggf. auf Daten, die aus die­sen Daten erzeugt wer­den? Oft ergibt sich eine Zuord­nung zwi­schen Daten und Richt­li­nien auch indi­rekt über die im Busi­ness-Glos­sar ver­wen­de­ten Begriffe, die den Daten zuge­ord­net wer­den. Das Glos­sar sollte hier­bei hier­ar­chisch ange­legt wer­den kön­nen. Einige Kata­loge kön­nen auch selbst­stän­dig durch Daten­ana­ly­sen bei der Zuord­nung hel­fen; die „Data Domain“-Funktion im Enter­prise Data Cata­log ist ein Bei­spiel hier­für. Manu­elle Zuord­nun­gen wer­den durch Data Samples und Sta­tis­ti­ken erleichtert.

Data Governance mit Data Catalogs Bild4
Abbil­dung 4 Richt­li­nien und Regeln im IBM IGC

Eine wei­tere Mög­lich­keit, mit Data Gover­nance umzu­ge­hen, ist der Ein­satz von spe­zia­li­sier­ten Data Gover­nance Tools. So kann der Enter­prise Data Cata­log z.B. mit dem Gover­nance-Tool Axon ver­bun­den wer­den – Infor­ma­tio­nen aus Axon kön­nen direkt im EDC ange­zeigt wer­den, ohne dass der Nut­zer das Pro­gramm ver­las­sen muss.

Data Governance mit Data Catalogs Bild5
Abbil­dung 5 Der Glos­sar-Begriff aus Axon wurde auto­ma­tisch in den Enter­prise Data Cata­log übernommen

Mehr als Compliance

Leicht ent­steht der Ein­druck, Data Gover­nance sei vor allem ein Hin­der­nis und eine Erschwe­rung bei der Arbeit mit Daten, aber dies täuscht: Gute Data Gover­nance hilft auch den Mit­ar­bei­tern, indem sie Unsi­cher­hei­ten besei­tigt. So lässt sich durch sinn­voll gewählte Richt­li­nien und die Über­wa­chung ihrer Umset­zung die Daten­qua­li­tät erhö­hen, sodass weni­ger Zeit für die Auf­ar­bei­tung schlech­ter Daten ver­wen­det wer­den muss, und die Qua­li­tät ana­ly­ti­scher Modelle steigt. Daten, die wohl­de­fi­nier­ten Begrif­fen im Busi­ness-Glos­sar zuge­ord­net sind, las­sen sich ein­fa­cher mit ande­ren Daten kom­bi­nie­ren. Regeln und Richt­li­nien kön­nen nicht zuletzt auch tech­nisch wich­tige Eigen­schaf­ten ent­hal­ten, bei­spiels­weise erlaubte Wer­te­be­rei­che – das erleich­tert eine Ana­lyse und Verarbeitung!

Rol­len­ver­tei­lung und Kollaboration

Unter­schied­li­che Nut­zer­grup­pen haben ver­schie­dene Ansprü­che. Ein Data Ste­ward, der die kor­rekte Beschrei­bung und Zuord­nung der Daten im Kata­log vor­nimmt und über­wacht, benö­tigt kei­nen SQL-Cli­ent; ein Data Sci­en­tist kann die­sen aber gut für erste explo­ra­tive Daten­ana­ly­sen nut­zen. In Ala­tion ist die­ser Unter­schied durch „Hats“ (Hüte) abge­bil­det – jede Nut­ze­rin oder Nut­zer setzt den für sie oder ihn pas­sen­den Hut auf und kann ihn bei Bedarf wechseln.

Data Governance mit Data Catalogs Bild6
Abbil­dung 6 In Ala­tion kann der User zwi­schen ange­pass­ten Nut­zer­ober­flä­chen für seine Rolle wählen

Ein Daten­ka­ta­log kann auch ein­ge­setzt wer­den, um Kol­la­bo­ra­tion zu för­dern: Wenn Mit­ar­bei­ter Bewer­tun­gen und Kom­men­tare zu Data­sets abge­ben kön­nen, kann dies hel­fen, Qua­li­täts- und Doku­men­ta­ti­ons­pro­bleme auf­zu­de­cken sowie den rich­ti­gen Fokus zu erhal­ten. Tools wie der saracus Visual Meta­data Layer hel­fen wei­ter­hin, den Über­blick über die Daten­land­schaft zu behalten.

Data Governance mit Data Catalogs Bild7
Abbil­dung 7 Der saracus Visual Meta­data Layer

Benach­rich­ti­gun­gen

Ein wei­te­res wich­ti­ges Fea­ture ist die Beob­ach­tung von Kata­log­ob­jek­ten. So kann ein Data Ste­ward schnell sehen, ob sich bei Objek­ten unter sei­ner oder ihrer Obhut etwas getan hat; hierzu sind Benach­rich­ti­gun­gen per E‑Mail oder Dash­boards nützlich.

Data Governance mit Data Catalogs Bild8
Abbil­dung 8 Beob­ach­tete Ele­mente las­sen sich auf der Start­seite von Ala­tion anzeigen
Data Governance mit Data Catalogs Bild9
Abbil­dung 9 Der EDC benach­rich­tigt den Nut­zer bei Ände­run­gen an beob­ach­te­ten Elementen

Fazit

Daten­ka­ta­loge sind ein sinn­vol­ler Teil eines Data-Gover­nance-Kon­zep­tes. Bereits ihre Grund­funk­tion des Kata­lo­gi­sie­rens von Daten­quel­len im Unter­neh­men ist uner­läss­lich beim Kate­go­ri­sie­ren und Auf­fin­den von Daten und Nach­voll­zie­hen von Daten­flüs­sen. Sie kön­nen eben­falls genutzt wer­den, um Richt­li­nien und Regeln zu doku­men­tie­ren und für Mit­ar­bei­ter, die mit den Daten arbei­ten, zugäng­lich zu machen. Die am Markt ange­bo­te­nen Daten­ka­ta­log­soft­ware­lö­sun­gen unter­schei­den sich hier­bei in der spe­zi­fi­schen wei­ter­ge­hen­den Funk­tio­na­li­tät und Ein­bin­dung ande­rer, viel­leicht im Unter­neh­men bereits vor­han­de­ner Tools, und der kon­kre­ten Ein­bin­dung der Nut­zer. Bei der Neu­an­schaf­fung eines Kata­logs sollte die Aus­wahl daher immer unter Beach­tung sowohl der vor­han­de­nen Infrastruktur als auch der Ziel­set­zung erfolgen.