In der Welt der Daten­pro­dukt­ent­wick­lung ist die Daten­mo­del­lie­rung ein ent­schei­den­der Schritt, der Unter­neh­men dabei hilft, Roh­da­ten in wert­volle Erkennt­nisse zu ver­wan­deln. Bei der Daten­mo­del­lie­rung wird eine kon­zep­tio­nelle Dar­stel­lung von Daten erstellt, die es Ent­wick­lern ermög­licht, eine Daten­bank­struk­tur zu ent­wer­fen und auf­zu­bauen, die Daten effi­zi­ent spei­chern und abru­fen kann. Die Bedeu­tung der Daten­mo­del­lie­rung liegt darin, dass sie Unter­neh­men hilft, die Bezie­hun­gen zwi­schen ver­schie­de­nen Daten­ele­men­ten zu ver­ste­hen, was wie­derum dazu bei­trägt, bes­sere Ent­schei­dun­gen zu tref­fen, Abläufe zu ver­bes­sern und Geschäfts­ziele zu errei­chen. Ohne eine ord­nungs­ge­mäße Daten­mo­del­lie­rung kön­nen Daten­pro­dukte unüber­sicht­lich und schwer zu ver­wen­den wer­den, was zu fal­schen Erkennt­nis­sen und ver­pass­ten Chan­cen führt. In die­sem Arti­kel wer­den wir einen tech­ni­schen Ein­blick in die Daten­mo­del­lie­rung geben und ihre Bedeu­tung im Zusam­men­hang mit der Ent­wick­lung von Daten­pro­duk­ten untersuchen.

Enti­tät, Attri­but und Beziehung

Zusam­men bil­den Enti­tä­ten, Attri­bute und Bezie­hun­gen die Grund­lage der Daten­mo­del­lie­rung, d. h. der Erstel­lung einer kon­zep­tio­nel­len, logi­schen oder phy­si­schen Dar­stel­lung von Daten für einen bestimm­ten Zweck oder Kontext.

Enti­tät

In der Daten­mo­del­lie­rung ist eine Enti­tät ein rea­les Objekt oder Kon­zept, das ein­deu­tig iden­ti­fi­ziert und beschrie­ben wer­den kann, wie z. B. eine Per­son, ein Ort, eine Sache, ein Ereig­nis oder ein Kon­zept. Eine Enti­tät wird nor­ma­ler­weise durch eine Tabelle in einer rela­tio­na­len Daten­bank dar­ge­stellt, und jede Instanz der Enti­tät wird durch eine Zeile in der Tabelle repräsentiert.

Attri­but

Ein Attri­but ist ein Merk­mal oder eine Eigen­schaft einer Enti­tät, z. B. ein Name, ein Alter, eine Adresse oder eine Farbe. Attri­bute wer­den durch Spal­ten in der Tabelle dar­ge­stellt, die die Enti­tät repräsentiert.

Bezie­hung

Eine Bezie­hung ist eine Ver­bin­dung oder Asso­zia­tion zwi­schen zwei oder meh­re­ren Enti­tä­ten. Bezie­hun­gen beschrei­ben, wie Enti­tä­ten mit­ein­an­der inter­agie­ren oder in Bezie­hung zuein­an­der ste­hen, und wer­den durch Linien oder Ver­bin­dungs­stü­cke zwi­schen den Enti­tä­ten in einem Daten­mo­dell dar­ge­stellt. Bezie­hun­gen kön­nen eins-zu-eins, eins-zu-viele oder viele-zu-viele sein.

Bei einer Eins-zu-Eins-Bezie­hung ist jede Instanz einer Enti­tät mit genau einer Instanz einer ande­ren Enti­tät ver­bun­den und umge­kehrt. In einer Daten­bank mit Mit­ar­bei­tern und ihren Büros kann bei­spiels­weise jeder Mit­ar­bei­ter mit einem Büro und jedes Büro mit einem Mit­ar­bei­ter ver­knüpft sein.

Arten der Datenmodellierung

Kon­zep­tu­el­les Datenmodell

Das kon­zep­tio­nelle Daten­mo­dell ist eine über­ge­ord­nete Dar­stel­lung der Daten­ein­hei­ten und ihrer Bezie­hun­gen. Diese Art von Daten­mo­dell kon­zen­triert sich auf Geschäfts­kon­zepte und ist unab­hän­gig von einer bestimm­ten Daten­bank­tech­no­lo­gie. Kon­zep­tu­elle Daten­mo­delle wer­den in der Regel von Busi­ness-Ana­lys­ten oder Daten­ar­chi­tek­ten erstellt und die­nen als Aus­gangs­punkt für detail­lier­tere Modelle. Der Haupt­zweck eines kon­zep­tio­nel­len Daten­mo­dells besteht darin, ein kla­res Ver­ständ­nis für den Umfang der Daten, die Bezie­hun­gen zwi­schen den Enti­tä­ten und die für die Daten gel­ten­den Geschäfts­re­geln zu vermitteln.

Logi­cal Data Model

Das logi­sche Daten­mo­dell ist eine detail­lier­tere Dar­stel­lung der Daten als das kon­zep­tio­nelle Modell. Es beschreibt die Bezie­hun­gen zwi­schen den Daten­ein­hei­ten und wird häu­fig ver­wen­det, um die Daten­an­for­de­run­gen auf eine bestimmte Daten­bank­tech­no­lo­gie abzu­bil­den. Logi­sche Daten­mo­delle wer­den von Daten­mo­del­lie­rern oder Daten­bank­de­si­gnern erstellt und die­nen dem Ent­wurf des Daten­bank­sche­mas. Der Haupt­zweck eines logi­schen Daten­mo­dells besteht darin, die Struk­tur der Daten zu defi­nie­ren und sicher­zu­stel­len, dass die Daten­bank nor­ma­li­siert und effi­zi­ent ist.

Es ist wich­tig zu ver­ste­hen, dass logi­sche Daten­mo­delle unab­hän­gig von einer bestimm­ten Anwen­dung und Imple­men­tie­rung der Daten sind. Ebenso ist das logi­sche Daten­mo­dell nicht auf ein bestimm­tes Daten­bank­werk­zeug oder einen bestimm­ten Anbie­ter beschränkt.

Das logi­sche Daten­mo­dell ändert sich nur, wenn sich die Anfor­de­run­gen an die Geschäfts­da­ten ändern. Es ändert sich nicht ent­spre­chend den Anwen­dungs­än­de­run­gen, da es von jeder Anwen­dung unab­hän­gig ist.

Phy­si­cal Data Model

Das phy­si­sche Daten­mo­dell ist eine Low-Level-Dar­stel­lung der Daten, die defi­niert, wie die Daten in einer bestimm­ten Daten­bank­tech­no­lo­gie gespei­chert wer­den sol­len. Es ent­hält Details wie Tabel­len­struk­tu­ren, Daten­ty­pen und Beschrän­kun­gen. Phy­si­sche Daten­mo­delle wer­den von Daten­bank­ad­mi­nis­tra­to­ren oder ‑ent­wick­lern erstellt und die­nen der Imple­men­tie­rung des Daten­bank­sche­mas. Der Haupt­zweck eines phy­si­schen Daten­mo­dells besteht darin, sicher­zu­stel­len, dass die Daten­bank effi­zi­ent und leis­tungs­fä­hig ist.

Das phy­si­sche Daten­mo­dell ist die Abbil­dung einer Teil­menge des logi­schen Daten­mo­dells, die durch die gewählte Archi­tek­tur und Tech­no­lo­gie vali­diert und geeig­net ist. Dabei sollte das phy­si­sche Daten­mo­dell mit den Geschäfts­re­geln, Defi­ni­tio­nen und Bezie­hun­gen kom­pa­ti­bel sein.

Rela­tio­nale vs. dimen­sio­nale Datenmodellierung

Rela­tio­nale Datenmodellierung

In einem rela­tio­na­len Daten­mo­dell sind die Daten in Tabel­len orga­ni­siert, wobei jede Tabelle eine bestimmte Ein­heit oder ein Objekt dar­stellt. Jede Tabelle besteht aus Zei­len (auch Daten­sätze oder Tupel genannt) und Spal­ten (auch Fel­der oder Attri­bute genannt). Die Spal­ten stel­len bestimmte Infor­ma­tio­nen über die Enti­tät dar, z. B. den Namen, die Adresse und die Tele­fon­num­mer eines Kunden.

Tabel­len in einem rela­tio­na­len Daten­mo­dell sind durch gemein­same Fel­der, die als Schlüs­sel bezeich­net wer­den, mit­ein­an­der ver­bun­den. Ein Schlüs­sel ist ein Feld, das jede Zeile in einer Tabelle ein­deu­tig iden­ti­fi­ziert. Durch die Ver­wen­dung von Schlüs­seln kön­nen Daten in einer Tabelle mit Daten in einer ande­ren Tabelle ver­knüpft wer­den, wodurch kom­plexe Abfra­gen und Daten­ana­ly­sen mög­lich werden.

Model­lie­rung dimen­sio­na­ler Daten

Das dimen­sio­nale Daten­mo­dell ist eine Methode zur Struk­tu­rie­rung von Daten zur Unter­stüt­zung der ana­ly­ti­schen Ver­ar­bei­tung und Bericht­erstat­tung. Es wurde ent­wi­ckelt, um einen schnel­len und effi­zi­en­ten Zugriff auf Daten für die Ana­lyse und nicht für die Trans­ak­ti­ons­ver­ar­bei­tung zu ermöglichen.

In einem dimen­sio­na­len Daten­mo­dell sind die Daten in zwei Arten von Tabel­len orga­ni­siert: Fak­ten­ta­bel­len und Dimen­si­ons­ta­bel­len. Fak­ten­ta­bel­len ent­hal­ten nume­ri­sche Daten, so genannte Kenn­zah­len, die Geschäfts­me­tri­ken wie Umsatz oder Ertrag dar­stel­len. Dimen­si­ons­ta­bel­len ent­hal­ten beschrei­bende Daten, so genannte Dimen­sio­nen, die den Kenn­zah­len in der Fak­ten­ta­belle einen Kon­text geben, z. B. Zeit, Ort oder Produkt.

Unter­schiede zwi­schen den bei­den Modellen

Hier sind die wich­tigs­ten Unter­schiede zwi­schen den beiden;

  • Zweck: Die rela­tio­nale Model­lie­rung dient der Dar­stel­lung von Trans­ak­ti­ons­da­ten und kon­zen­triert sich auf die Bezie­hun­gen zwi­schen Enti­tä­ten. Die dimen­sio­nale Model­lie­rung hin­ge­gen dient der Dar­stel­lung ana­ly­ti­scher Daten und kon­zen­triert sich auf die Mes­sung von Geschäfts­kenn­zah­len über ver­schie­dene Dimen­sio­nen hinweg.
  • Struk­tur: Rela­tio­nale Modelle basie­ren auf dem Nor­ma­li­sie­rungs­pro­zess, bei dem die Daten in klei­nere, bes­ser hand­hab­bare Ein­hei­ten zer­legt wer­den, um Red­un­dan­zen zu mini­mie­ren und die Daten­in­te­gri­tät zu ver­bes­sern. Dimen­sio­nale Modelle hin­ge­gen basie­ren auf dem Kon­zept eines Stern­sche­mas oder Schnee­flo­cken­sche­mas, bei dem Daten denor­ma­li­siert wer­den, um die Abfra­geleis­tung zu optimieren.
  • Daten­ty­pen: Rela­tio­nale Modelle sind für die Dar­stel­lung struk­tu­rier­ter Daten, wie Zah­len und Text, kon­zi­piert. Dimen­sio­nale Modelle hin­ge­gen sind für die Dar­stel­lung halb­struk­tu­rier­ter und unstruk­tu­rier­ter Daten wie Zeit­rei­hen­da­ten, Text und Bil­der konzipiert.
  • Abfrage-Opti­mie­rung: Rela­tio­nale Modelle sind für die Trans­ak­ti­ons­ver­ar­bei­tung opti­miert, bei der der Schwer­punkt auf dem schnel­len Zugriff auf ein­zelne Daten­sätze liegt. Dimen­sio­nale Modelle hin­ge­gen sind für die ana­ly­ti­sche Ver­ar­bei­tung opti­miert, bei der der Schwer­punkt auf der Aggre­ga­tion von Daten über Dimen­sio­nen hin­weg zur Ana­lyse von Geschäfts­kenn­zah­len liegt.

Nota­tio­nen für die Datenmodellierung

Daten­mo­del­lie­rungs­no­ta­tio­nen sind gra­fi­sche Dar­stel­lun­gen, die zur Erstel­lung von Daten­mo­del­len ver­wen­det wer­den. Daten­mo­delle wer­den ver­wen­det, um die Struk­tur von Daten inner­halb eines Sys­tems oder einer Orga­ni­sa­tion dar­zu­stel­len, und Daten­mo­del­lie­rungs­no­ta­tio­nen wer­den ver­wen­det, um die Gestal­tung und Kom­mu­ni­ka­tion die­ser Struk­tu­ren zu unterstützen.

Es gibt meh­rere Nota­tio­nen für die Daten­mo­del­lie­rung, darunter;

  • Entity-Rela­ti­onship (ER) Nota­tion: Die ER-Nota­tion wird ver­wen­det, um Daten­mo­delle zu erstel­len, die Enti­tä­ten (Objekte) und die Bezie­hun­gen zwi­schen ihnen dar­stel­len. ER-Dia­gramme bestehen aus Enti­tä­ten, Attri­bu­ten und Bezie­hun­gen und wer­den häu­fig beim Daten­bank­de­sign ver­wen­det. ER-Dia­gramme sind die bekann­tes­ten und am häu­figs­ten ver­wen­de­ten Nota­tio­nen im Datenbereich.
  • Uni­fied Mode­ling Lan­guage (UML): UML ist eine all­ge­meine Model­lie­rungs­spra­che, die zur Model­lie­rung eines brei­ten Spek­trums von Sys­te­men, ein­schließ­lich Soft­ware­sys­te­men und Geschäfts­pro­zes­sen, ver­wen­det wer­den kann. UML-Dia­gramme kön­nen Klas­sen, Objekte, Anwen­dungs­fälle, Akti­vi­tä­ten und vie­les mehr darstellen.
  • Objekt­ori­en­tierte Daten­mo­del­lie­rung (OODM): OODM ist eine Model­lie­rungs­tech­nik, mit der Daten objekt­ori­en­tiert dar­ge­stellt wer­den kön­nen. OODM-Dia­gramme bestehen aus Objek­ten, Klas­sen, Attri­bu­ten und Metho­den und wer­den häu­fig beim Soft­ware­de­sign verwendet.
  • Daten­fluss­dia­gramme (DFD): DFDs wer­den ver­wen­det, um den Daten­fluss inner­halb eines Sys­tems oder Pro­zes­ses zu model­lie­ren. DFDs bestehen aus Pro­zes­sen, Daten­spei­chern und Daten­flüs­sen und wer­den in der Regel bei der Sys­tem­ana­lyse und ‑ent­wick­lung eingesetzt.
  • Busi­ness Pro­cess Mode­ling Nota­tion (BPMN): BPMN ist eine Nota­tion, die zur Model­lie­rung von Geschäfts­pro­zes­sen ver­wen­det wird. BPMN-Dia­gramme bestehen aus Akti­vi­tä­ten, Gate­ways, Ereig­nis­sen und Flüs­sen und wer­den in der Regel im Geschäfts­pro­zess­ma­nage­ment verwendet.

Jede Nota­tion hat ihre Stär­ken und Schwä­chen und ist für unter­schied­li­che Arten von Daten­mo­del­lie­rungs­auf­ga­ben geeig­net. Es ist wich­tig, die geeig­nete Nota­tion auf der Grund­lage der spe­zi­fi­schen Bedürf­nisse und Anfor­de­run­gen des Pro­jekts auszuwählen.

Schluss­fol­ge­rung

Das Ver­ständ­nis der Grund­la­gen der Daten­mo­del­lie­rung ist für jeden, der in der heu­ti­gen Geschäfts­um­ge­bung mit Daten arbei­tet, von ent­schei­den­der Bedeu­tung. Daten­mo­del­lie­rung ist der Pro­zess der Struk­tu­rie­rung von Daten zur Unter­stüt­zung von Geschäfts­an­for­de­run­gen und ist für die Erstel­lung genauer, effi­zi­en­ter und zuver­läs­si­ger Daten­sys­teme unerlässlich.

Durch das Erler­nen der Grund­la­gen der Daten­mo­del­lie­rung, ein­schließ­lich rela­tio­na­ler und dimen­sio­na­ler Modelle, kön­nen Ein­zel­per­so­nen Daten­sys­teme bes­ser ent­wer­fen, ent­wi­ckeln und pfle­gen, die den Anfor­de­run­gen ihres Unter­neh­mens ent­spre­chen. Ange­sichts des rasan­ten Daten­wachs­tums in der heu­ti­gen Welt wird die Bedeu­tung fun­dier­ter Daten­mo­del­lie­rungs­kennt­nisse wei­ter zunehmen.

Quelle: medium.com