SQL (Struc­tu­red Query Lan­guage) ist eine dekla­ra­tive Spra­che, die es den Benut­zern ermög­licht, die Ergeb­nisse, die sie aus einer Daten­bank abru­fen wol­len, oder die Ände­run­gen, die sie vor­neh­men wol­len, zu spe­zi­fi­zie­ren, ohne die Ver­fah­ren zu beschrei­ben, mit denen sie diese Ergeb­nisse erzie­len wol­len. SQL wurde 1970 von E.F. Codd vor­ge­schla­gen, um die Kom­ple­xi­tät von Daten­spei­cher- und ‑abruf­me­cha­nis­men zu abs­tra­hie­ren und es Ent­wick­lern zu ermög­li­chen, sich auf die Daten­ma­ni­pu­la­tion und ‑extrak­tion zu konzentrieren.

Im Laufe der Jahre hat sich SQL wei­ter­ent­wi­ckelt und umfasst heute zahl­rei­che Vari­an­ten wie Tran­sact-SQL (T‑SQL), das von Micro­soft SQL Ser­ver ver­wen­det wird, und Pro­ce­du­ral Language/SQL (PL/SQL), das von Ora­cle Data­base ver­wen­det wird. Diese Vari­an­ten erwei­tern die Funk­tio­na­li­tät von Stan­dard-SQL und ermög­li­chen es Ent­wick­lern, pro­ze­du­ra­len Code zu schrei­ben, kom­plexe Berech­nun­gen zu erstel­len und viele andere Auf­ga­ben aus­zu­füh­ren, die mit Stan­dard-SQL nur schwer zu bewäl­ti­gen wären.

Micro­soft ist schon seit lan­gem auf die­sem Weg, der in den 80er Jah­ren begann.

Micro­soft SQL Ser­ver: On-Premises Data Ware­housing (1989)

Der 1989 ein­ge­führte Micro­soft SQL Ser­ver war eines der ers­ten rela­tio­na­len Daten­bank­ma­nage­ment­sys­teme (RDBMS), das SQL nutzte. Es arbei­tet nach einem Cli­ent-Ser­ver-Modell, bei dem der Ser­ver die Daten­bank hos­tet und die Cli­ents sich mit dem Ser­ver ver­bin­den, um auf die Daten zuzu­grei­fen und mit ihnen zu interagieren.

Die Archi­tek­tur von SQL Ser­ver ist robust und viel­schich­tig. Sie umfasst meh­rere Kom­po­nen­ten wie die Daten­bank-Engine, die Daten spei­chert, ver­ar­bei­tet und sichert; SQL Ser­ver Inte­gra­tion Ser­vices (SSIS), eine Platt­form für den Auf­bau von Daten­in­te­gra­ti­ons- und Daten­um­wand­lungs­lö­sun­gen auf Unter­neh­mens­ebene; SQL Ser­ver Ana­ly­sis Ser­vices (SSAS), die ana­ly­ti­sche Daten für Busi­ness Intel­li­gence-Anwen­dun­gen bereit­stel­len, und SQL Ser­ver Report­ing Ser­vices (SSRS), eine Berichts­platt­form für die Erstel­lung von Berich­ten aus SQL Server-Datenbanken.

Seit sei­nen Anfän­gen hat SQL Ser­ver viele Ver­sio­nen erlebt, die jeweils neue Funk­tio­nen und Ver­bes­se­run­gen ein­führ­ten. So wurde bei­spiels­weise mit SQL Ser­ver 2005 die Inte­gra­tion des .NET Frame­works ein­ge­führt, wodurch gespei­cherte Pro­ze­du­ren und Funk­tio­nen in jeder .NET-Spra­che geschrie­ben wer­den kön­nen. Mit SQL Ser­ver 2016 wurde Always Encrypted ein­ge­führt, eine Funk­tion zum Schutz sen­si­bler Daten wie Kre­dit­kar­ten­num­mern oder natio­nale Iden­ti­fi­ka­ti­ons­num­mern, die in Azure SQL Data­base oder SQL Ser­ver-Daten­ban­ken gespei­chert sind. Beach­ten Sie, dass, obwohl die meis­ten Inves­ti­tio­nen jetzt in der Cloud getä­tigt wer­den, die Bereit­stel­lung von SQL-Ser­vern vor Ort wei­ter­hin unter­stützt wird.

Azure SQL Data Ware­house: Cloud-based Data Ware­housing (2009–2015)

Mit dem expo­nen­ti­el­len Wachs­tum des Daten­vo­lu­mens und der Daten­viel­falt wur­den die Gren­zen von On-Premises-Lösun­gen in Bezug auf Ska­lier­bar­keit, Kos­ten und Sicher­heit immer deut­li­cher. Als Reak­tion dar­auf führte Micro­soft zwi­schen 2009 und 2015 das Azure SQL Data Ware­house ein, um diese Her­aus­for­de­run­gen zu bewäl­ti­gen, und mar­kierte damit einen bedeu­ten­den Wech­sel von On-Premises- zu Cloud-basier­tem Data Warehousing.

Azure SQL Data Ware­house nutzt die Leis­tung von Mas­si­vely Par­al­lel Pro­ces­sing (MPP), um kom­plexe Abfra­gen über Peta­bytes von Daten schnell aus­zu­füh­ren. Bei MPP ver­wen­det ein Com­pu­ter­sys­tem viele Pro­zes­so­ren (oder Com­pu­ter), um gleich­zei­tig Berech­nun­gen durch­zu­füh­ren. Im Kon­text von Azure SQL Data Ware­house wur­den die Daten in Ver­tei­lun­gen auf­ge­teilt, und jede Ver­tei­lung wurde auf einem sepa­ra­ten Rechen­kno­ten gespei­chert. Diese Archi­tek­tur ermög­lichte es Azure SQL Data Ware­house, große Daten­men­gen schnell zu verarbeiten.

Ein wesent­li­ches Merk­mal von Azure SQL Data Ware­house war die Tren­nung von Rechen- und Spei­cher­res­sour­cen. Dies ermög­lichte eine unab­hän­gige Ska­lie­rung je nach Arbeits­last­an­for­de­run­gen und damit eine kos­ten­güns­tige und ska­lier­bare Lösung.

Der Über­gang zu Azure SQL Data Ware­house bedeu­tete eine erheb­li­che Ver­än­de­rung der Data Ware­housing-Funk­tio­nen. Die Platt­form basiert auf einem Plat­form as a Ser­vice (PaaS)-Modell, das die tra­di­tio­nel­len loka­len Kom­po­nen­ten erheb­lich verändert:

  • Der Active Direc­tory Ser­ver wurde in Azure AD umge­wan­delt und bie­tet nun einen cloud­ba­sier­ten Identitätsverwaltungsdienst.
  • Die Daten­quel­len wur­den erwei­tert und umfas­sen nun nicht nur lokale Daten­ban­ken, son­dern auch SQL-Ser­ver auf vir­tu­el­len Maschi­nen und andere Datenbanken.
  • Die SQL Ser­ver Inte­gra­tion Ser­vices ent­wi­ckel­ten sich zu Azure Data Fac­tory, einem Cloud-basier­ten Daten­in­te­gra­ti­ons­dienst, der die Bewe­gung und Umwand­lung von Daten orches­triert und automatisiert.
  • Der tra­di­tio­nelle Data Ware­house Ser­ver wurde durch Azure SQL Data Ware­house ersetzt, eine voll­stän­dig ver­wal­tete, leis­tungs­starke und sichere Analyseplattform.
  • SQL Ser­ver Ana­ly­sis Ser­vices wurde in Azure Ana­ly­sis Ser­vices umge­wan­delt und bie­tet erwei­terte Ana­ly­sen und Daten­mo­del­lie­rung in der Cloud.
  • SQL Ser­ver Report­ing Ser­vices wurde durch Power BI ersetzt, eine Suite von Busi­ness-Ana­lyse-Tools für die Visua­li­sie­rung von Daten und den Aus­tausch von Erkenntnissen.

Diese Ver­la­ge­rung in die Cloud hat die Ska­lier­bar­keit, Sicher­heit und Kos­ten­ef­fi­zi­enz von Data Ware­housing erheb­lich ver­bes­sert und damit die Grund­lage für die nächste Evo­lu­ti­ons­stufe der Daten­reise von Micro­soft geschaffen.

Azure Syn­apse Ana­ly­tics: A Uni­fied and Inte­gra­ted Ser­vice (2019)

Azure Syn­apse Ana­ly­tics: A Uni­fied and Inte­gra­ted Ser­vice (2019)

Azure Syn­apse Ana­ly­tics über­brückt die Lücke zwi­schen Big Data und Data Ware­housing. Es lässt sich mit ver­schie­de­nen Daten­quel­len inte­grie­ren, dar­un­ter rela­tio­nale und nicht-rela­tio­nale Daten­ban­ken, und bie­tet Tools für die Daten­auf­be­rei­tung wie Azure Data Fac­tory für ETL-Pro­zesse, Azure Dat­ab­ricks für Big Data-Ana­ly­sen und Azure Machine Lear­ning für erwei­terte Analysen.

Azure Syn­apse Ana­ly­tics bie­tet auch On-Demand- oder bereit­ge­stellte Res­sour­cen und bie­tet damit Fle­xi­bi­li­tät je nach Geschäfts­an­for­de­run­gen. Es ermög­licht Benut­zern, sowohl rela­tio­nale als auch nicht-rela­tio­nale Daten im Peta­byte-Maß­stab abzu­fra­gen und dabei ent­we­der ser­ver­lose oder bereit­ge­stellte Res­sour­cen zu nut­zen. Dar­über hin­aus lässt sich die Lösung naht­los in Power BI und Azure Machine Lear­ning inte­grie­ren, um leis­tungs­starke Daten­vi­sua­li­sie­rung und erwei­terte Ana­ly­se­funk­tio­nen zu ermöglichen.

Meh­rere reale Anwen­dun­gen zei­gen die Fähig­kei­ten von Azure Syn­apse Ana­ly­tics. So wird es bei­spiels­weise im Gesund­heits­we­sen ein­ge­setzt, um große Men­gen an Pati­en­ten­da­ten für die For­schung und Behand­lungs­op­ti­mie­rung zu ana­ly­sie­ren. Ein­zel­händ­ler nut­zen es, um das Kun­den­ver­hal­ten zu ana­ly­sie­ren und ihre Mar­ke­ting­stra­te­gien zu opti­mie­ren. Diese Fälle zei­gen, wie Azure Syn­apse Ana­ly­tics große, kom­plexe Daten­men­gen ver­ar­bei­ten und gleich­zei­tig wert­volle Erkennt­nisse lie­fern kann.

Micro­soft Fabric: A Uni­fied Ana­ly­tics Plat­form (2023)

Mit der zuneh­men­den All­ge­gen­wär­tig­keit von Daten stie­gen die Anfor­de­run­gen an Zusam­men­ar­beit und Inter­ak­ti­vi­tät. Um die­sen Anfor­de­run­gen gerecht zu wer­den, führte Micro­soft im Jahr 2023 Micro­soft Fabric ein. Diese ein­heit­li­che Ana­ly­se­platt­form ver­eint Azure Data Fac­tory, Azure Syn­apse Ana­ly­tics und Power BI in einem ein­zi­gen Produkt.

Micro­soft Fabric bie­tet eine End-to-End-Daten­lö­sung, von der Daten­auf­nahme und ‑umwand­lung bis hin zur Visua­li­sie­rung und erwei­ter­ten Ana­lyse. Sie führt Funk­tio­nen wie One­Lake ein, das ein ein­heit­li­ches Data Lake-Erleb­nis bie­tet, sowie Ver­knüp­fun­gen, die den Zugriff auf Daten erleich­tern und deren Ver­wal­tung ver­ein­fa­chen. Es ver­wen­det das Delta Par­quet-For­mat, ein hoch­ef­fi­zi­en­tes, spal­ten­för­mi­ges Daten­for­mat, das für schnelle Ana­ly­sen opti­miert ist.

Durch die Inte­gra­tion ver­schie­de­ner Tech­no­lo­gien ermög­licht es Micro­soft Fabric Daten- und Geschäfts­exper­ten, ihre Daten voll­stän­dig zu nut­zen. Es bie­tet einen ein­heit­li­chen Arbeits­be­reich, der die Zusam­men­ar­beit zwi­schen ver­schie­de­nen Rol­len erleich­tert – Daten­in­ge­nieure kön­nen damit Daten­pipe­lines erstel­len, Daten­wis­sen­schaft­ler kön­nen Modelle für maschi­nel­les Ler­nen ent­wi­ckeln und Geschäfts­ana­lys­ten kön­nen Daten mit Power BI visua­li­sie­ren. Die­ses Maß an Zusam­men­ar­beit ratio­na­li­siert den Daten­ana­ly­se­pro­zess und macht ihn schnel­ler und effizienter.

Micro­soft Fabric stellt einen bedeu­ten­den Mei­len­stein in Micro­softs Daten­reise dar. Sie ver­kör­pert die Vision von Micro­soft, die Welt der Daten mit SQL zu trans­for­mie­ren und eine umfas­sende, ein­heit­li­che Platt­form bereit­zu­stel­len, die alle daten­be­zo­ge­nen Anfor­de­run­gen eines Unter­neh­mens erfüllt. Seine Ein­füh­rung mar­kiert ein auf­re­gen­des neues Kapi­tel in der Ent­wick­lung von Data Ware­housing und Analytik.

Im obi­gen Dia­gramm ist sie in ers­ter Linie für „Data Ware­house“ gedacht, aber auch neue Archi­tek­tu­ren wie Lake­house und Mesh wer­den unterstützt.

Schluss­fol­ge­rung

Die Ent­wick­lung der Daten­in­fra­struk­tur­land­schaft war eine Reise, die von stän­di­ger Inno­va­tion und Anpas­sung geprägt war. Ursprüng­lich lag der Schwer­punkt auf der Schaf­fung robus­ter Daten­in­fra­struk­tu­ren, die den Anfor­de­run­gen der Unter­neh­men gerecht wer­den konn­ten. Dazu muss­ten Sys­teme geschaf­fen wer­den, die in der Lage waren, Daten effi­zi­ent und zuver­läs­sig zu spei­chern, abzu­ru­fen und zu bearbeiten.

Mit dem Wachs­tum der Tech­no­lo­gie und der Daten­men­gen wuch­sen auch die Her­aus­for­de­run­gen. Der Wech­sel zum Cloud Com­pu­ting wurde durch den Bedarf an ska­lier­ba­ren Lösun­gen vor­an­ge­trie­ben, die die stän­dig wach­sen­den Daten­men­gen bewäl­ti­gen konn­ten. Cloud-basierte Lösun­gen wie Azure SQL Data Ware­house boten die not­wen­dige Ska­lier­bar­keit, Kos­ten­ef­fi­zi­enz und Sicher­heit, die lokale Lösun­gen nur schwer bie­ten konnten.

Das Auf­kom­men von Big Data brachte eine Reihe neuer Her­aus­for­de­run­gen mit sich. Die Daten waren nicht mehr auf struk­tu­rierte, tabel­la­ri­sche For­mate beschränkt, son­dern kamen nun in ver­schie­de­nen For­men und aus unter­schied­li­chen Quel­len. Dies führte zur Ent­wick­lung bes­ser inte­grier­ter und viel­sei­ti­ge­rer Lösun­gen wie Azure Syn­apse Ana­ly­tics, die sowohl struk­tu­rierte als auch unstruk­tu­rierte Daten ver­ar­bei­ten können.

Heute geht der Trend hin zu einem stär­ker kol­la­bo­ra­ti­ven und KI-gesteu­er­ten Ansatz für Daten. Die Ein­füh­rung von Micro­soft Fabric ver­kör­pert die­sen Trend, indem sie ver­schie­dene Daten­tech­no­lo­gien in eine ein­zige Platt­form inte­griert und die Zusam­men­ar­beit zwi­schen ver­schie­de­nen Rol­len erleich­tert. KI und maschi­nel­les Ler­nen sind jetzt inte­grale Bestand­teile der Daten­land­schaft, die Erkennt­nisse und Ent­schei­dungs­fin­dung vorantreiben.

Im Wesent­li­chen lässt sich die Ent­wick­lung der Daten­in­fra­struk­tur als eine Pro­gres­sion dar­stel­len: von der Ein­rich­tung robus­ter Sys­teme über die Ska­lie­rung mit der Cloud und die Inte­gra­tion ver­schie­de­ner Daten­ty­pen bis hin zur För­de­rung der Zusam­men­ar­beit und der Nut­zung der KI. Die­ser Ent­wick­lungs­pfad unter­streicht die Dyna­mik der Daten­land­schaft und die kon­ti­nu­ier­li­che Inno­va­tion, die sie vorantreibt.

Quelle: medium.com