In allen grö­ße­ren Unter­neh­men ist mitt­ler­weile eine Viel­zahl an Daten­ban­ken für ver­schie­dene Ein­satz­zwe­cke vor­han­den. Das Auf­fin­den der pas­sen­den Daten für eine bestimmte ana­ly­ti­sche Fra­ge­stel­lung ist damit häu­fig ein kom­ple­xes und zeit­auf­wän­di­ges Unter­fan­gen. Auch nach­dem man eine viel­ver­spre­chende Tabelle oder ein Schema in einer Daten­bank gefun­den hat stel­len sich wei­tere Fra­gen: Wo stam­men diese Daten ursprüng­lich her? Wann wur­den sie zuletzt aktua­li­siert? Ist eine ana­ly­ti­sche Nut­zung recht­lich über­haupt zuläs­sig (DSGVO / GDPR)? Zum Suchen und Fin­den von Daten sowie zur Beant­wor­tung der damit zusam­men­hän­gen­den Fra­gen bie­tet Col­li­bra mit der Data Intel­li­gence Cloud ein leis­tungs­fä­hi­ges, aber auch kom­ple­xes Tool an, das wir an die­ser Stelle vor­stel­len möchten.

Grund­la­gen

Wie der Name schon ver­rät wird die Col­li­bra Cloud als Soft­ware-as-a-Ser­vice Pro­dukt ange­bo­ten. Der Dienst wird bei AWS, Azure und Google in ver­schie­de­nen Dat­a­cen­tern ange­bo­ten, sodass sich Vor­ga­ben zum Stand­ort der Daten erfül­len las­sen. Als Beson­der­heit gibt es bei Col­li­bra die Mög­lich­keit, die eigent­li­che Daten­ver­ar­bei­tung On-Pre­mise oder in der eige­nen Cloud­um­ge­bung durch­zu­füh­ren und nur die Ergeb­nisse an die Col­li­bra Cloud zu schi­cken. Ins­be­son­dere ist es so mög­lich, per­so­nen­be­zo­gene Daten zu iden­ti­fi­zie­ren und zum Bei­spiel im Pro­fil­ing und Sam­pling zu mas­kie­ren, ohne dass sie die eigene Umge­bung ver­las­sen müssen.

Ein beson­de­res Merk­mal von Col­li­bra sind die sehr umfang­rei­chen und kom­ple­xen Kon­fi­gu­ra­ti­ons­mög­lich­kei­ten. Im Ope­ra­ting Model las­sen sich viel­fäl­tige Assets defi­nie­ren. Neben typi­schen Ein­trä­gen wie tech­ni­schen Daten­bank­ob­jek­ten und Busi­ness Glos­sa­ren, kön­nen auch Geschäfts­pro­zesse, Domä­nen, gesetz­li­che Vor­ga­ben und selbst erstellte Typen hier dar­ge­stellt wer­den, ebenso wie ihre Bezie­hun­gen unter­ein­an­der. Neben der sta­ti­schen Abbil­dung der ver­schie­de­nen Busi­ness­as­sets eines Unter­neh­mens gibt es eine umfang­rei­che Work­flowen­gine. Sie unter­stützt das BPMN Modell und hilft, daten­be­zo­gene Pro­zesse im Unter­neh­men zu auto­ma­ti­sie­ren und zu ver­ein­fa­chen. So wer­den zum Bei­spiel Daten­an­fra­gen oder Ände­rungs­vor­schläge für Glos­s­arein­träge direkt an die rich­ti­gen Mit­ar­bei­ten­den wei­ter­ge­lei­tet. Auch Abstim­mun­gen inner­halb von Gre­mien las­sen sich so rea­li­sie­ren und die Ergeb­nisse direkt zur Umset­zung an das pas­sende Team schi­cken. Dank der Unter­stüt­zung von Java und Groovy-Skrip­ten sind auch hier umfang­rei­che Anpas­sungs­mög­lich­kei­ten gege­ben. Die Ver­ant­wort­lich­kei­ten und Berech­ti­gun­gen der Mit­ar­bei­ten­den kön­nen über glo­bale und Asset-gebun­dene Rol­len fein-gra­nu­lar ein­ge­stellt werden.

Die Funk­tio­nen des Col­li­bra Tools las­sen sich grob in die vier Teil­be­rei­che Data Cata­log, Data Lineage, Data Gover­nance und Data Pri­vacy unterteilen.

Abbil­dung 1: Eine Orga­ni­sa­ti­ons- und Com­mu­ni­ty­hier­ar­chie in Collibra

Data Cata­log

Auch wenn hier der Begriff Daten­ka­ta­log ver­wen­det wird, sind in Col­li­bra nicht nur Daten im klas­si­schen Sinne (rela­tio­nale Daten­ban­ken mit Sche­mas, Tabel­len und Attri­bu­ten) ver­zeich­net. Andere Objekte wie Geschäfts­pro­zesse oder BI Reports kön­nen eben­falls erfasst wer­den. Diese sind über die inte­grierte Such­funk­tion auf­find­bar, die viel­fäl­tige Fil­ter­op­tio­nen bie­tet sowie die Mög­lich­keit, Such­an­sich­ten zu spei­chern und zu tei­len. Eine Beson­der­heit von Col­li­bra ist dabei die Ein­ord­nung von Objek­ten in Com­mu­ni­ties, Sub-Com­mu­ni­ties und Domä­nen. Com­mu­ni­ties kön­nen im Prin­zip belie­big defi­niert wer­den, soll­ten aber mög­lichst an die Data Gover­nance des Unter­neh­mens ange­passt sein. Als Bei­spiele mit­ge­lie­fert wer­den unter ande­rem eine Busi­ness Ana­lyst Com­mu­nity und das Data Gover­nance Coun­cil. Inner­halb einer Com­mu­nity grup­pie­ren Domä­nen Assets des glei­chen Typs. In der Busi­ness Ana­lyst Com­mu­nity wären das BI Sys­teme und Reports, im Gover­nance Coun­cil Poli­cies, Pro­zesse und Qua­li­täts­me­tri­ken. Der genaue Zuschnitt wird hier wäh­rend der Erstel­lung des Ope­ra­ting Models an das Unter­neh­men ange­passt und gehört zu den ers­ten Schrit­ten in einem Data Gover­nance Pro­gramm. Dar­über hin­aus kön­nen Daten­ele­mente zu Daten­sets zusam­men­ge­fasst, ver­wal­tet und beschrie­ben werden.

Abbil­dung 2: Col­li­bra kann umfas­sende Pro­file von Attri­bu­ten erstel­len und anzeigen

Als wei­tere Beson­der­heit bie­tet Col­li­bra eine inte­grierte „Shop­ping for Data“ Funk­tio­na­li­tät mit einem Ein­kaufs­korb für Daten­ele­mente. Für ein Vor­ha­ben im Ana­ly­tics Bereich kann ein Data Sci­en­tist so Daten in einer intui­ti­ven Ober­flä­che zusam­men­stel­len. Im Anschluss kann die Nut­zungs­an­frage direkt aus dem Tool an einen Data Owner ver­schickt wer­den, der oder die ent­spre­chend benach­rich­tigt wird und die Zugriffs­an­fra­gen geneh­mi­gen oder ableh­nen kann.

Abbil­dung 3: Eine Beson­der­heit von Col­li­bra ist die hier dar­ge­stellte „Shop­ping for Data“ Komponente

Des Wei­te­ren ist das umfang­rei­che Ope­ra­ting Model her­vor­zu­he­ben, dass kon­zep­tio­nelle, logi­sche und phy­si­sche Assets ver­bin­det. Die „Gui­ded Ste­ward­ship“ stellt eine vor­kon­fi­gu­rierte Ansicht in Dia­gram­men dar, die die Bezie­hun­gen zwi­schen den drei Ebe­nen anschau­lich darstellt.

Lineage

Im Bereich der Data Lineage bie­tet Col­li­bra ver­schie­dene Model­lie­rungs­mög­lich­kei­ten. Die tech­ni­sche Lineage stellt die Daten­flüsse zwi­schen tech­ni­schen Objek­ten wie Daten­ban­ken, Tabel­len, Reports, etc. dar. Diese kann mit den pas­sen­den Kon­nek­to­ren auto­ma­tisch aus­ge­le­sen und als Graph dar­ge­stellt wer­den. Sie zeigt, aus wel­chen Sys­te­men Daten stam­men, in wel­chen Reports sie ver­wen­det wer­den und wel­che Trans­for­ma­tio­nen ange­wandt wer­den. In die­ser Lineage kön­nen auch Sys­teme ange­zeigt wer­den, die tech­nisch nicht an Col­li­bra ange­schlos­sen sind – sie erschei­nen dann aus­ge­graut. Die auto­ma­ti­sche Bestim­mung der tech­ni­schen Lineage benö­tigt eine kom­plexe tech­ni­sche Archi­tek­tur im Hin­ter­grund, für die Col­li­bra Lineage Ser­ver und Har­ves­ter bereit­stellt. Eine große Zahl an Daten­ban­ken, ETL/ELT- und BI- Tools wird für das Aus­le­sen unterstützt.

Abbil­dung 4: Die Lineage Funk­tion stellt die Zusam­men­hänge zwi­schen Objek­ten in Col­li­bra gra­fisch dar.

Die soge­nannte Busi­ness Sum­mary Lineage umfasst hin­ge­gen nur Objekte im Kata­log und stellt eine ver­ein­fachte Dia­gramm­sicht­weise für Busi­ness Anwen­der dar. Mit ihr kann man zum Bei­spiel die Abhän­gig­kei­ten eines BI Reports ver­ste­hen, ohne tech­ni­sche Details zu benötigen.

Gover­nance

Im Data Gover­nance Bereich fasst Col­li­bra das Busi­ness Glos­sar, den Policy Mana­ger, Refe­rence Data und Assess­ments zusammen. 

Das Busi­ness Glos­sar dient der Defi­ni­tion von wich­ti­gen Geschäfts­be­grif­fen und ihrer Ver­knüp­fung mit tech­ni­schen Assets. Es soll eine ein­heit­li­che Spra­che im Unter­neh­men sicher­stel­len und häu­fig auf­tau­chende Fra­gen beant­wor­ten. Wie ist der Begriff „Kunde“ defi­niert? Wo lie­gen Stamm­da­ten zu Kunden?

Der Policy Bereich ist eine Beson­der­heit von Col­li­bra. Hier wer­den Richt­li­nien fest­ge­legt, ihr Hin­ter­grund beschrie­ben und der Sta­tus der Umset­zung doku­men­tiert. Die Assets hier sind zum Bei­spiel Data Sha­ring Agree­ments oder Work­flows für Abstimmungsprozesse.

Der Bereich Refe­rence Data umfasst die Doku­men­ta­tion von Code Values und Code Sets. Hier wird zum Bei­spiel fest­ge­legt, wel­che Wert­aus­prä­gun­gen für eine Tabel­len­spalte erlaubt sind oder wel­ches Busi­ness Asset durch einen Wert reprä­sen­tiert wird. Sol­che Bezie­hun­gen kön­nen in Col­li­bra auch expli­zit dar­ge­stellt wer­den – z.B. um Län­der­codes den ent­spre­chen­den Busi­ness Terms zu Län­dern zuzu­ord­nen und fest­zu­le­gen, dass sie die Wert­aus­prä­gun­gen eines bestimm­ten Attri­bu­tes sind.

Der umfang­rei­che Assess­ment Bereich schluss­end­lich dient der Risi­ko­ein­schät­zung für per­so­nen­be­zo­gene Daten. Die Assess­ments wer­den von Nut­zern für Assets ein­ge­reicht, von Data Ste­wards aus­ge­führt und ent­spre­chend im Kata­log verzeichnet.

Abbil­dung 5: Mit umfang­rei­chen kon­fi­gu­rier­ba­ren Dash­boards lässt sich der aktu­elle Stand der Gover­nance nachverfolgen.

Pri­vacy

Der Data Pri­vacy Bereich von Col­li­bra rich­tet sich ins­be­son­dere an Unter­neh­men, die die Ein­hal­tung der GDPR und/oder CCPA Regu­la­rien beach­ten müs­sen. Sie bie­tet eine bei­spiel­hafte Orga­ni­sa­ti­ons­truk­tur mit vor­kon­fi­gu­rier­ten Regel­wer­ken und Codesets.

Zusam­men­fas­sung

Wir haben gese­hen, dass Col­li­bra nicht nur die von einer Kata­log­lö­sung zu erwar­ten­den Stan­dard­funk­tio­nen bie­tet, son­dern dar­über hin­aus sehr umfang­rei­che Optio­nen vor allem im Bereich Gover­nance und Pri­vacy. Als wei­tere Fea­tures bie­tet Col­li­bra zudem umfang­rei­che Dash­boards, eine Data Help­desk als inte­grierte Sup­port Funk­tion für Daten­nut­zer und eine Brow­ser­funk­tion zur Inte­gra­tion in die täg­li­che Arbeit. Erfah­rungs­ge­mäß ist Col­li­bra ein mäch­ti­ges Tool, das nahezu allen Anfor­de­run­gen gerecht wer­den kann, dazu aber auch die ent­spre­chende Pla­nung und Kon­fi­gu­ra­tion benötigt.