Moderne Platt­for­men zur ana­ly­ti­schen Ver­ar­bei­tung von Daten ver­ei­nen eine Viel­zahl von Kom­po­nen­ten in den Berei­chen Daten­hal­tung, Ana­lyse, Ser­vices und Pro­zesse. Eine zen­trale Rolle kann und sollte dabei ein moder­ner, gut inte­grier­ter Daten­ka­ta­log ein­neh­men, der sowohl das klas­si­sche Report­ing, das explo­ra­tive Arbei­ten als auch die daten­ge­trie­bene Unter­stüt­zung und Opti­mie­rung ope­ra­ti­ver Pro­zesse unter­stüt­zen kann. Auch wenn häu­fig der Begriff Daten­ka­ta­log ver­wen­det wird (und wir das der Ein­fach­heit hal­ber hier auch tun) haben diese Tools häu­fig einen weit grö­ße­ren Funk­ti­ons­um­fang. Die Her­stel­ler ver­wen­den oft die Bezeich­nung Data Intelligence.

In die­sem Arti­kel wol­len wir einen Blick auf die Her­aus­for­de­run­gen und Mög­lich­kei­ten beim Ein­satz eines Daten­ka­ta­lo­ges in einer Ana­ly­tics Platt­form wer­fen und dabei auch auf Stol­per­steine hin­wei­sen, die im Laufe eines Roll Out Pro­gram­mes auf­tau­chen kön­nen. Vor allem soll auf zu erwar­tende Fra­ge­stel­lun­gen und Pro­bleme hin­ge­wie­sen wer­den – die Ant­wor­ten und Lösun­gen sind bran­chen- und unternehmensspezifisch.

Wel­che Sys­teme sol­len ange­bun­den werden?

Die grund­le­gende und namens­ge­bende Funk­tion eines Daten­ka­ta­lo­ges ist es, den Bestand von Daten­ban­ken zu erfas­sen und diese tech­ni­schen Meta­da­ten leicht auf­find­bar und durch­such­bar zu machen. Zudem sol­len sie mit bestehen­den und neuen fach­li­chen Meta­da­ten inte­griert wer­den. Ana­ly­tics Platt­for­men set­zen öfter auf ver­schie­dene Ebe­nen (Sta­ging, Data Marts etc.), die die Daten aus Quell­sys­te­men ver­füg­bar machen. Diese set­zen übli­cher­weise auf ver­schie­de­nen Daten­bank­tech­no­lo­gien auf, für die unter­schied­li­che Kon­nek­to­ren im Kata­log genutzt wer­den, was oft zusätz­li­che Lizenz­kos­ten gene­riert. Hier muss über­legt wer­den, ob man im Kata­log eine kom­plette tech­ni­sche Sicht auf die Daten der Platt­form bie­ten will oder nur den Teil dar­stellt, den man für den End­nut­zer rele­vant hält. Auch inner­halb einer Daten­bank will man oft nicht sämt­li­che Objekte in den Kata­log holen. Rein tech­ni­sche Sys­tem­ta­bel­len wer­den oft aus­ge­blen­det, ebenso ist es denk­bar, die eigent­li­chen Tabel­len zu ver­ste­cken und nur die Views auf­zu­neh­men, mit denen der Daten­zu­griff erfolgt. Je nach ein­ge­setz­tem Kata­log gibt es ver­schie­dene Metho­den, diese Auf­nahme zu steu­ern, sei es gra­fisch über das UI oder selbst erstellte SQLs mit Steu­er­ta­bel­len, die durch einen wei­te­ren Pro­zess gepflegt wer­den. Man sollte sich vor der erst­ma­li­gen Bela­dung Gedan­ken dazu machen, um spä­ter nicht unnö­tige Objekte wie­der ent­fer­nen zu müs­sen. Bei Kata­lo­gen mit einem gra­nu­la­ren Berech­ti­gungs­kon­zept ist es auch mög­lich, für unter­schied­li­che Benut­zer­grup­pen ver­schie­dene Sich­ten anzu­bie­ten – der Data Engi­neer sieht die zu Grunde lie­gen­den Tabel­len, der Ana­lyst nur die von ihm genutz­ten Views.

Abbil­dung 1: Eine große Zahl an inter­nen und exter­nen Quel­len kann poten­ti­ell an einen Kata­log ange­schlos­sen wer­den. Die Aus­wahl sollte aber geplant sein und in ein Gesamt­kon­zept passen.

Ein wei­te­rer Punkt, der bedacht wer­den sollte: Die Daten­ban­ken der Ana­ly­tics Platt­form bezie­hen ihre Daten übli­cher­weise aus ope­ra­ti­ven Sys­te­men oder ande­ren exter­nen Quel­len, die auch in sepa­ra­ter Ver­ant­wor­tung lie­gen – sie wer­den aber nicht voll­stän­dig, son­dern viel­leicht nur auf Anfor­de­rung über­nom­men. Ein unter­neh­mens­wei­ter Daten­ka­ta­log würde die Quell­sys­teme natür­lich betrach­ten. Aber auch im Ana­ly­tics Bereich kann es die Anfor­de­rung geben, eine Sicht auf die Daten zu bie­ten, die noch nicht Teil der Platt­form sind, aber für eine Fra­ge­stel­lung eines Ana­lys­ten oder Data Sci­en­tist von Inter­esse. Die genaue Art der Ein­bin­dung sollte dann aber gut geplant sein, da sich die ein­ge­bun­dene Menge an Meta­da­ten ver­viel­fa­chen wird.

Man kann die­sen Gedan­ken noch wei­ter­spin­nen und auch externe Daten­markt­plätze ein­bin­den, wie es sie zum Bei­spiel von Snow­flake und den gro­ßen Clou­dan­bie­tern gibt. Der Kata­log von Ala­tion bie­tet hier mitt­ler­weile eine vor­ge­fer­tigte Anbindung.

Wie wer­den die Daten beschrieben?

Neben den tech­ni­schen Meta­da­ten wie der Objekt­be­zeich­nung oder dem Daten­typ bie­ten Daten­ka­ta­loge auch Fel­der für fach­li­che Titel, Beschrei­bun­gen und wei­tere selbst­de­fi­nierte Attri­bute. Diese wer­den übli­cher­weise nicht von der Daten­bank abge­ru­fen, son­dern müs­sen auf ande­rem Wege ein­ge­pflegt wer­den. In einem Data Gover­nance Kon­zept mag es für diese Auf­gabe zum Bei­spiel die Rolle des Busi­ness Data Ste­wards für das Quell­sys­tem geben. Wie sieht es aber aus, wenn Daten aus den Quell­sys­te­men in die Platt­form repli­ziert wer­den? Sol­len die Beschrei­bun­gen mit­über­nom­men wer­den? Oft lie­gen diese in Wikis, ver­streu­ten Excel­da­teien oder in Archi­tek­tur­tools. Sind diese dann im Daten­ka­ta­log edi­tier­bar oder gilt die Beschrei­bung des Quell­sys­tems als „Gol­den Record“?

Abbil­dung 2: Doku­men­ta­tion zu den Daten ist häu­fig schon an vie­len ver­teil­ten Stel­len im Unter­neh­men vor­han­den und kann im Kata­log zen­tra­li­siert gepflegt werden.

Viel­leicht sol­len die fach­li­chen Meta­da­ten auch regel­mä­ßig syn­chro­ni­siert wer­den. Ebenso muss geklärt wer­den, wie fach­li­che Beschrei­bun­gen für Daten gepflegt wer­den, die auf der Platt­form neu erzeugt wer­den. Hier ist sowohl die Data Gover­nance als auch die tech­ni­sche Imple­men­tie­rung von Bedeu­tung. Die meis­ten Kata­loge bie­ten APIs, über die gefor­derte Syn­chro­ni­sie­run­gen vor­ge­nom­men wer­den kön­nen – die Art und Rich­tung sollte aber vorab geklärt sein.

Wie wer­den Pro­zesse abge­bil­det und unterstützt?

Bei der Ein­bin­dung von Pro­zes­sen der Ana­ly­tics Platt­form unter­schei­den wir zwi­schen bestehen­den Pro­zes­sen, meist tech­ni­scher Natur, die im Kata­log doku­men­tiert wer­den, und Pro­zes­sen des orga­ni­sa­to­ri­schen Ablaufs der Platt­form, die der Kata­log aktiv unter­stüt­zen kann.

Auf der Seite der Tech­nik ist zunächst das Thema Lineage und Impact zu betrach­ten – die Dar­stel­lung, woher die Daten kom­men und wohin sie trans­por­tiert wer­den. Die auto­ma­ti­sierte Ein­bin­dung mit­tels Kon­nek­to­ren ist oft mit gro­ßen Her­aus­for­de­run­gen ver­bun­den. Es sollte genau geprüft wer­den, ob der ange­dachte Daten­ka­ta­log eine Schnitt­stelle zum ein­ge­setz­ten ETL/ELT Werk­zeug bie­tet. Für die Repli­zie­rung aus den Quell­sys­te­men und für den Trans­port inner­halb der Platt­form sind oft unter­schied­li­che Tools im Ein­satz. Meist ist es nötig, über API Schnitt­stel­len selbst die ent­spre­chen­den Meta­da­ten bereit­zu­stel­len. Neben die­sen tech­ni­schen Über­le­gun­gen sollte auch geplant wer­den, wie weit und auf wel­che Weise der Daten­trans­port dar­ge­stellt wer­den sollt. Wie soll zum Bei­spiel die Her­kunft aus den Quell­sys­te­men ver­deut­licht wer­den, wenn diese nicht direkt an den Kata­log ange­schlos­sen sind? Erfah­rungs­ge­mäß ist die Ein­bin­dung der Lineage deut­lich auf­wen­di­ger als das initiale Anbinde der Datenbanken.

Abbil­dung 3: Ein Daten­ka­ta­log hat das Potentiel, Pro­zesse nicht nur zu doku­men­tie­ren, son­dern auch zu unter­stüt­zen und beschleunigen.

Hat man die Quell­sys­teme in irgend­ei­ner Form ange­bun­den, so ergibt sich die Option, einen Pro­zess zu imple­men­tie­ren, der die Auf­nahme von Daten von der Quelle in  die Ana­ly­tics Platt­form antrig­gert. Hier bie­ten zum Bei­spiel die Kata­loge von Col­li­bra und Ala­tion gute Mög­lich­kei­ten. Auch Aspekte des Daten­schut­zes könn­ten und soll­ten im Kata­log prä­sent sein. So kann die Schutz­be­dürf­tig­keit von Daten­sät­zen als zusätz­li­ches Attri­but ange­ge­ben wer­den und ent­spre­chende Daten im Sam­pling mas­kiert wer­den. Hierzu sind dann aber wahr­schein­lich wei­tere, sepa­rat gepflegte Meta­da­ten nötig.

Auf wel­che Art ver­wen­den die Nut­zen­den den Katalog?

Das Nut­zungs­ver­hal­ten der User ist sicher­lich eine schwer plan­bare Größe. Den­noch sollte sich das Team für die Toolaus­wahl und ‑ein­füh­rung mit die­ser Frage beschäf­ti­gen und zum Bei­spiel über Inter­views, Umfra­gen und Nut­zer­tests Daten sam­meln. Stellt man sich einen Kata­log als rei­nes Nach­schla­ge­werk vor, das von einer Gruppe dezi­dier­ter Ste­wards befüllt wird oder setzt man auf starke Nut­zer­inter­ak­tion? Soll eine fach­li­che oder tech­ni­sche Sicht auf die Daten im Vor­der­grund ste­hen? Wie wich­tig und umfang­reich soll ein Busi­ness Glos­sar sein? Unter­schied­li­che Too­l­an­bie­ter haben hier sehr unter­schied­li­che Stär­ken und man kann kein „one size fits all“ Tool benen­nen. Bei einem Kata­log für Fach­an­wen­der mit weni­ger tech­ni­schen Back­ground sind auch wei­che Kri­te­rien wie das Look-and-Feel der Ober­flä­che von Bedeu­tung. Spe­zi­ell bei einer Ana­ly­tics Platt­form mag es aus­rei­chend sein, den Kata­log als Nach­schla­ge­werk für die auf der Platt­form vor­han­de­nen Daten zu betrei­ben. In die­sem Fall sollte aber bedacht wer­den, ob es auch einen unter­neh­mens­wei­ten Kata­log gibt oder der Platt­form Kata­log lang­fris­tig dahin wach­sen könnte. Auch die Ein­bin­dung des Kata­lo­ges in die unter­neh­mens­weite Gover­nance muss mit­ge­dacht wer­den. Inwie­weit sol­len zum Bei­spiel exis­tie­rende Rol­len wie Data Owner oder Ste­ward in der Platt­form und im Kata­log abge­bil­det wer­den, ohne dabei den Fokus auf den Ana­ly­tics Bereich zu verlieren?

Fazit

Wir haben gese­hen, dass sich bei der Ein­füh­rung eines Daten­ka­ta­logs (oder genauer einer Data Intel­li­gence Platt­form) eine Viel­zahl von Fra­gen erge­ben. Dies ergibt sich dar­aus, das ein Daten­ka­ta­log oft eine Viel­zahl von Tools, Daten­spei­cher­or­ten und Pro­zes­sen zusam­men­füh­ren soll. Wir haben uns hier auf den Ein­satz inner­halb einer Ana­ly­tics Platt­form kon­zen­triert, aber auch bei eine umterneh­mens­wei­ten Kata­log stel­len sich ähn­li­che, teil­weise sogar grö­ßere, Her­aus­for­de­run­gen. Hier ist es oft rat­sam, mit einem klei­nen Aus­chnitt der Daten­welt des Unter­neh­mens, zum Bei­spiel einem Fach­be­reich oder einer Pro­dukt­ka­te­go­rie, zu begin­nen und den Blick dann schritt­weise zu wei­ten. Wir wol­len hier kurz zusam­men­fas­sen, was in einer Ana­ly­tics Platt­form zu beach­ten ist:

  • Wel­che (tech­ni­schen) Meta­da­ten sol­len wie dar­ge­stellt werden?
  • Woher kom­men die fach­li­chen Beschrei­bun­gen und wie wer­den sie im Wei­te­ren gepflegt?
  • Wie soll die Data Lineage ein­ge­bun­den werden?
  • Wel­che wei­te­ren Pro­zesse sol­len im Kata­log dar­ge­stellt oder unter­stützt sein?

Zu die­sen Fra­gen sollte man sich zu Beginn eines Daten­ka­ta­log­pro­jek­tes Gedan­ken machen und zumin­dest vor­läu­fige Ent­schei­dun­gen tref­fen. Gerade bei einer agi­len Her­an­ge­hens­weise kann und wird es aber immer nötige Anpas­sun­gen geben – auch das sollte immer immer im Hin­ter­kopf behal­ten werden.

Erfah­ren Sie hier mehr über Lösun­gen im Bereich Data Manage­ment oder besu­chen Sie eines unse­rer kos­ten­lo­sen Web­i­nare.