Wenn Sie Daten von Alt­sys­te­men auf eine Cloud-Daten­platt­form ver­schie­ben, müs­sen Sie die Qua­li­tät und die all­ge­meine Ver­wal­tung die­ser Daten sicherstellen. 

Bis vor kur­zem war Data Gover­nance in ers­ter Linie eine Auf­gabe der IT-Abtei­lung, die sich mit der Kata­lo­gi­sie­rung von Daten­ele­men­ten zur Unter­stüt­zung der Suche und Ermitt­lung befasste. Doch im digi­ta­len Zeit­al­ter lie­gen Daten und ihre Ver­wal­tung in der Ver­ant­wor­tung des gesam­ten Unter­neh­mens. Daten­ver­wal­ter (IT) und Daten­nut­zer (der Rest des Unter­neh­mens) müs­sen in der Lage sein, Daten zu ent­de­cken, zu ver­ste­hen und zu nut­zen, um Chan­cen zu nut­zen und Risi­ken zu begrenzen. 

Stel­len Sie es sich so vor: Die rich­ti­gen Daten in der rich­ti­gen Qua­li­tät, unab­hän­gig von Spei­cher­ort oder For­mat, müs­sen nur den rich­ti­gen Per­so­nen für den rich­ti­gen Zweck zur Ver­fü­gung stehen. 

Die Ver­wirk­li­chung die­ses Ziels erfor­dert eine kon­ti­nu­ier­li­che stra­te­gi­sche Anstren­gung. Erfor­der­lich sind eine unter­neh­mens­weite Zusam­men­ar­beit und eine Tech­no­lo­gie, die einen ganz­heit­li­chen Über­blick über die Daten­land­schaft bie­tet, ein­schließ­lich der Frage, wo sich die Daten befin­den, von wel­chen Sys­te­men sie genutzt wer­den und wie man auf sie zugrei­fen und sie ver­wal­ten kann. Data Gover­nance ist not­wen­dig, aber auch kom­pli­ziert, so dass die meis­ten Unter­neh­men Schwie­rig­kei­ten haben, sie zu operationalisieren. 

Im Laufe der Zeit führt der Wunsch, die Tech­no­lo­gie zu moder­ni­sie­ren, dazu, dass Unter­neh­men viele ver­schie­dene Sys­teme mit unter­schied­li­chen Daten­ein­ga­be­punk­ten und Umwand­lungs­re­geln erwer­ben, wenn Daten in das Unter­neh­men und durch das Unter­neh­men hin­durch­flie­ßen. Diese Tools rei­chen von Enter­prise Ser­vice Bus (ESB)-Produkten, Daten­in­te­gra­ti­ons­tools, ETL-Tools, pro­ze­du­ra­lem Code, APIs, FTP-Pro­zes­sen und sogar BI-Berich­ten, die Daten wei­ter agg­re­gie­ren und trans­for­mie­ren. All diese ver­schie­de­nen Meta­da­ten­quel­len bil­den ein kom­pli­zier­tes Geflecht und erschwe­ren die Erstel­lung eines ein­fa­chen visu­el­len Daten­flus­ses und die Ana­lyse der Auswirkungen. 

Orga­ni­sa­tio­nen in ver­schie­de­nen Sek­to­ren haben schon seit eini­gen Jah­ren mit Vor­schrif­ten wie HIPAA, SOX und PCI-DSS zu kämp­fen. Mit der Ver­ab­schie­dung der EU-Daten­schutz­grund­ver­ord­nung (GDPR) und ihren stren­gen Stra­fen bei Nicht­ein­hal­tung rückte Data Gover­nance jedoch ins Ram­pen­licht und zwang die meis­ten Unter­neh­men dazu, ihre Ansätze und Tools neu zu bewer­ten. Obwohl die Unter­neh­men Ver­bes­se­run­gen vor­ge­nom­men haben, ver­las­sen sie sich immer noch auf über­wie­gend manu­elle Pro­zesse für die Daten­ka­ta­lo­gi­sie­rung, die Daten­ab­folge und die Daten­zu­ord­nung und kämp­fen mit den Her­aus­for­de­run­gen, die die Ein­füh­rung einer umfas­sen­den und nach­hal­ti­gen Data Gover­nance mit sich bringt. 

Das Pro­blem ist, dass nur wenige Unter­neh­men wis­sen, wel­che Daten sie haben oder wo sie sich befin­den, und dass sie sich schwer tun, bekannte Daten zu inte­grie­ren, die in ver­schie­de­nen For­ma­ten und zahl­rei­chen Sys­te­men vor­lie­gen, ins­be­son­dere wenn sie keine Mög­lich­keit haben, diese Inte­gra­ti­ons­pro­zesse zu auto­ma­ti­sie­ren. Wenn jedoch IT-gesteu­er­tes Daten­ma­nage­ment und geschäfts­ori­en­tier­tes Data-Gover­nance-Per­so­nal per­so­nell, pro­zes­sual und tech­no­lo­gisch zusam­men­ar­bei­ten, kön­nen sie auf der Grund­lage eines voll­stän­di­gen Bestands an zuver­läs­si­gen Infor­ma­tio­nen Ent­schei­dun­gen tref­fen und Aus­wir­kun­gen bestimmen. 

DATENMODELLIERUNG IST DIE GRUNDLAGE FÜR DATA GOVERNANCE 

Obwohl die Daten­mo­del­lie­rung schon immer der beste Weg war, um kom­plexe Daten­quel­len zu ver­ste­hen und Design­stan­dards zu auto­ma­ti­sie­ren, ermög­licht die Model­lie­rung heute eine echte Zusam­men­ar­beit inner­halb eines Unter­neh­mens, da sie eine visu­elle Quelle der Wahr­heit lie­fert, an der sich alle, ein­schließ­lich Daten­ma­nage­ment- und Geschäfts­exper­ten, ori­en­tie­ren kön­nen, um die Gover­nance-Anfor­de­run­gen zu erfüllen. 

Die Daten­mo­del­lie­rung ist auch der beste Weg, um Meta­da­ten zu visua­li­sie­ren, und das Meta­da­ten­ma­nage­ment ist der Schlüs­sel zur Ver­wal­tung und Steue­rung Ihrer Daten, damit Sie dar­aus Erkennt­nisse zie­hen kön­nen. Die Visua­li­sie­rung geht über das Sam­meln und Kata­lo­gi­sie­ren von Meta­da­ten hin­aus, indem sie es allen Daten­be­tei­lig­ten ermög­licht, kom­plexe Daten­or­ga­ni­sa­tio­nen auf­zu­schlüs­seln und Daten­be­zie­hun­gen expli­zit zu verstehen. 

Die neu­este Ver­sion des erwin Data Mode­ler (erwin DM) hat eine neue Benut­zer­ober­flä­che und viele neue Funk­tio­nen, ein­schließ­lich der nati­ven Unter­stüt­zung für Snow­flake. Außer­dem ent­hält es jetzt den erwin DM Sche­du­ler, mit dem Sie Reverse-Engi­nee­ring-Jobs (RE) im Vor­aus defi­nie­ren und pla­nen kön­nen, ohne Ihre erwin DM-Nut­zung zu unterbrechen. 

Dar­über hin­aus bie­tet erwin jetzt erwin DM Con­nect for DI an, eine Inte­gra­tion zwi­schen erwin DM und der erwin Data Intel­li­gence Suite (erwin DI). Die­ses Ange­bot ermög­licht es Ihnen, Daten zwi­schen erwin DM und erwin DI zu syn­chro­ni­sie­ren, indem Sie den erwin DM Mart Admi­nis­tra­tor als Schnitt­stelle nut­zen und so eine ein­zige Meta­da­ten- und Glos­s­ar­quelle beibehalten. 

DATA GOVERNANCE FÜR DIE CLOUD-DATENPLATTFORM VON SNOWFLAKE 

Die erwin DI Suite inter­agiert mit Tools von Dritt­an­bie­tern über erwin Data Con­nec­tors, zu denen erwin Stan­dard Data Con­nec­tors und erwin Smart Data Con­nec­tors gehören. 

erwin Stan­dard-Daten­kon­nek­to­ren 

erwin Stan­dard Data Con­nec­tors stel­len eine Ver­bin­dung zu jeder JDBC-kom­pa­ti­blen Quelle her, um grund­le­gende Meta­da­ten zu scan­nen, die Stan­dard-JDBC-Auf­rufe bereit­stel­len; viele native erwin Stan­dard Data Con­nec­tors sind jedoch bereits im Lie­fer­um­fang ent­hal­ten. Diese nati­ven Kon­nek­to­ren ver­bes­sern die Leis­tung und den Umfang der aus den Quell­sys­te­men extra­hier­ten Metadaten. 

Die neu­este Ver­sion der erwin DI Suite scannt nativ Snow­flake-Daten­ban­ken, um die Data-at-Rest-Struk­tu­ren zu doku­men­tie­ren. Die nati­ven erwin Snow­flake Stan­dard Data Con­nec­tors scan­nen und über­neh­men auto­ma­tisch Meta­da­ten aus Snow­flake in erwin DI und ermög­li­chen das Map­ping von Daten in und aus Snowflake-Strukturen. 

Nach­dem Sie die Snow­flake-Daten­bank kon­fi­gu­riert und mit den rich­ti­gen JDBC-Anmel­de­infor­ma­tio­nen ver­bun­den haben, kön­nen Sie Meta­da­ten sam­meln. Die gescann­ten Meta­da­ten wer­den im Meta­da­ten­ma­na­ger unter einem Snow­flake-Quel­len­typ gespei­chert. Es wer­den tech­ni­sche Stan­dard-Meta­da­ten erfasst, z. B. Daten­typ, Länge, Genau­ig­keit und Maß­stab. Sie kön­nen diese Meta­da­ten mit zusätz­li­chen Fel­dern erwei­tern, z. B. mit Defi­ni­tio­nen, geschäfts­spe­zi­fi­schen benut­zer­de­fi­nier­ten Fel­dern (User Defi­ned Fields, UDF), Anga­ben zur Emp­find­lich­keits­stufe und sogar mit geschäft­li­chen Begrif­fen, die im Busi­ness Glos­sary Mana­ger defi­niert sind, was die Demo­kra­ti­sie­rung von Daten ermög­licht. (Die Daten­de­mo­kra­ti­sie­rung wird in einem spä­te­ren Blog behandelt). 

Eine Schritt-für-Schritt-Anlei­tung zur Kon­fi­gu­ra­tion, Ver­bin­dung und zum Scan­nen von Snow­flake-Meta­da­ten in erwin DI fin­den Sie im erwin Bookshelf. 

erwin Smart Data Kon­nek­to­ren 

Die erwin Smart Data Con­nec­tors ermög­li­chen es Unter­neh­men, die End-to-End-Abstam­mung über viele Tech­no­lo­gie­platt­for­men von Dritt­an­bie­tern auto­ma­tisch zu ver­bin­den, zu kata­lo­gi­sie­ren und zu doku­men­tie­ren. Ein Data-Gover­nance-Pro­gramm kann mit Hilfe der erwin-Auto­ma­ti­sie­rung und der in jedem erwin Smart Data Con­nec­tor vor­kon­fi­gu­rier­ten Intel­li­genz die schnellste Zeit bis zum Geschäfts­wert erreichen. 

Das in erwin DI ein­ge­bet­tete Auto­ma­ti­sie­rungs-Frame­work wird von erwin selbst ent­wi­ckelt und unter­stützt. Es umfasst die bran­chen­weit größte Biblio­thek an intel­li­gen­ten Daten­kon­nek­to­ren zum Scan­nen und auto­ma­ti­schen Doku­men­tie­ren von ETL‑, ELT‑, BI- und pro­ze­du­ra­lem Quell­code für Lineage- und Impact-Ana­ly­sen. Diese auto­ma­ti­schen Doku­men­ta­ti­ons­pro­zesse wer­den schritt­weise aktua­li­siert und für den Pro­duk­ti­ons-Release-Zyklus eines Kun­den kon­fi­gu­riert, so dass erwin DI immer mit der Pro­duk­ti­ons­um­ge­bung syn­chro­ni­siert ist. 

Der Snow­flake SQL Reverse Engi­nee­ring Smart Data Con­nec­tor parst Snow­flake DML-Anwei­sun­gen in Quelle-Ziel-Map­pings inner­halb des erwin Meta­data Mana­ger-Moduls von erwin DI. Diese Map­pings wer­den ver­wen­det, um Lineage-Ana­ly­se­be­richte zu gene­rie­ren, die die Daten­be­we­gung in der Snow­flake-Umge­bung ver­fol­gen können. 

erwin Smart Data Con­nec­tors kön­nen mit jedem Tool inte­griert wer­den, das ein SDK bereit­stellt. Das SDK kann in Form von XML- oder JSON-Flat-File-Expor­ten, API-Inte­gra­tion oder direk­ter Daten­bank-Repo­si­tory-Kon­nek­ti­vi­tät vor­lie­gen.  Unab­hän­gig davon, in wel­cher Form die Snow­flake DML vor­liegt, kann sie durch die Anwen­dung der erwin Smart Data Con­nec­tors auto­ma­tisch doku­men­tiert wer­den. Bei­spiele hier­für sind Apa­che Air­flow, Tal­end oder andere ETL-Tools oder direk­tes Snow­flake-SQL ein­ge­bet­tet in Python-Skripte. Mit der rich­ti­gen Kom­bi­na­tion von erwin Smart Data Con­nec­tors kann die in Ihrer Snow­flake-Umge­bung doku­men­tierte Lineage in die Lineage der Unter­neh­mens­quel­len inte­griert wer­den, die in die Cloud-Daten­platt­form von Snow­flake ein­ge­speist wer­den, um eine echte End-to-End-Trans­pa­renz der Daten­be­we­gun­gen zu gewährleisten. 

Quelle: Snow­flake

Erfah­ren Sie hier mehr über Lösun­gen im Bereich Snow­flake oder besu­chen Sie eines unse­rer kos­ten­lo­sen Web­i­nare.