Bei der Ausführung bzw. Migration von SSIS-Paketen in die Azure Cloud gibt es gemäß Forrester vier verschiedene Möglichkeiten:
- Lift & Shift
- Lift & Extend
- Hybrid Extension
- Full Rebuild
Lift & Shift bezeichnet hierbei eine mehr oder weniger direkte Migration mit lediglich geringen erforderlichen Anpassungen der bisherigen Infrastruktur zu einer Cloudumgebung.
Bei Lift & Extend werden die eigenen Anwendungen vorher so angepasst, um optimal mit der Cloudplattform (PaaS) zusammenarbeiten zu können und basierend auf dieser Plattform spätere Erweiterungen bzw. Anpassungen vornehmen zu können.
Bei Hybrid Extensions werden lediglich einige Funktionen in die Cloud ausgelagert, während der Kern der Anwendungen bzw. die Daten weiterhin auf den Servern der Unternehmen verbleiben.
Full Rebuilds bezeichnen eine komplette Transformation der bestehenden Umgebung. Die jeweiligen Anwendungen werden vollständig neu entwickelt, um die Cloud-Möglichkeiten optimal nutzen zu können.
Im Rahmen von ETL/ELT-Prozessen bietet Azure die Plattform Data Factory an. Bisher war durch die fehlende Unterstützung der SQL Server Integration Services (SSIS) eine einfache Lift-&-Shift-Migration bestehender Systeme nicht möglich.
Mit Veröffentlichung von Azure Data Factory V2 hat sich dies grundlegend geändert!
Gründe für die Migration in die Cloud
Für eine Migration in die Azure-Umgebung sprechen gute Gründe, die sich in den häufig auftretenden Auslastungsmustern zeigen:
1. On-&-Off-Workloads
Gerade bei Batch-Jobs werden die Rechenressourcen nicht durchgehend verwendet, sondern nur teilweise. Dies führt zu verschwendeten Kapazitäten im Rechenzentrum.
2. Unvorhergesehene Belastungen
Im schnelllebigen Computerzeitalter können virale Effekte plötzlich zu erhöhten kurzfristigen Nachfragespitzen führen, die von einem eigenen Rechenzentrum nicht ohne weiteres abgefangen werden können.
3. Vorhersehbare Belastungen
Saisonale Schwankungen in der Nachfrage stellen einen Zielkonflikt für die Ressourcenplanung dar. Man will sowohl die gesamte Nachfrage erfolgreich bedienen können, allerdings auch keine unnötigen Ressourcen für große Zeitspannen haben (vgl. Auslastungsmuster 1)
4. Schnelles Wachstum
Gerade bei disruptiven Geschäftsmodellen kann es zu schnellen Wachstumsraten kommen. Investitionen in ein Rechenzentrum, das kontinuierlich aufgerüstet werden müsste, ist kaum durchführbar.
Hier entwickeln Cloudlösungen ihre große Stärke:
Dadurch, dass nur genutzte Leistungen angerechnet werden, können Unternehmen die benötigten Leistungen schnell entsprechend der Nachfrage skalieren.
Azure Data Factory V2
Mit Azure Data Factory V2 (ADF) stellt Microsoft einen Datenintegrationsdienst für die Cloud bereit. Hybridumgebungen können mit den bekannten Azure-Mitteln des virtuellen Netzwerkes umgesetzt werden – zusammen mit einem VPN-Gateway oder der schnelleren Express-Route-Verbindung zum eigenen Rechenzentrum.
Die Bedeutung von Daten nimmt stetig zu. Völlig zurecht gelten sie heute als Rohstoff des 21. Jahrhunderts. Entsprechend steigen auch die Anforderungen an die eigene Infrastruktur, um diese Daten aufzunehmen, aufzubereiten und zu verwalten. Data Engineers und Entwickler stellen daher immer häufiger fest, dass eine Migration der On-Premise-Anwendungen hin zu der Cloud mit ihrer großen Flexibilität und Skalierbarkeit große Vporteile bietet und zukünftig fast schon unumgänglich sein wird. Die SSIS-Unterstützung in ADF ist verfügbar für alle Kunden und ermöglicht hierbei eine Lift-&-Shift-Migration. Dadurch profitieren Nutzer von einer größeren Skalierbarkeit, einer höheren Verfügbarkeit und gleichzeitig niedrigeren Gesamtkosten (TCO).
Zusätzlich müssen die erforderlichen Ressourcen nicht selbst verwaltet und eingerichtet werden, da dies von ADF übernommen wird.
SSIS-Pakete können – ohne Programmierkenntnisse – einfach via einer grafischen Oberfläche bereitgestellt werden (alternativ kann die Bereitstellung auch mit PowerShell erfolgen. Mit diesem Verfahren könnten die Skripte parametrisiert werden und bei einem Migrationsprojekt entsprechend automatisiert werden.
In ADF werden die SSIS-Pakete von der Azure-SSIS-Integration-Runtime verwaltet.
Diese stellt eigene dedizierte Server (virtuelle Maschinen in Azure) für die Ausführung bereit, welche automatisch erzeugt werden. Mittels der Knotengröße und der Knotenanzahl kann das Skalierungsverhalten konfiguriert werden. Für das Hosten des SSIS-Kataloges ist eine Azure Datenbank erforderlich. Es kann sowohl Azure-SQL als auch eine verwaltete Datenbankinstanz verwendet werden.
Zur Ausführung der SSIS-Pakete nutzt ADF entsprechende SQL-Server-Instanzen auf den einzelnen virtuellen Maschinen. Mit dem Azure Hybrid Benefit können existierende On-Premise-Lizenzen geltend gemacht werden, um die Kosten zu senken.
Die in ADF bereitgestellten SSIS-Pakete können wie andere Aktivitäten in die Pipeline eingebunden werden. Sie profitieren entsprechend auch vom Trigger-System und der Ablaufsteuerung.
Mittels eines benutzerdefinierten Setups können Parameter für die Azure-SSIS-Integration-Runtime bei Bedarf angepasst und Erweiterungen installiert werden.
Bedingt durch die Charakteristiken eines Clouddienstes sind traditionelle Lizensierungsmethoden für SSIS-Komponenten von Drittherstellern eher ungeeignet. Hierfür gibt es nun ein eigenes Lizensierungskonzept.
Zusätzlich zu diesen Features kann ADF auch auf die Enterprise Edition erweitert werden. Neben weiteren Konnektoren (u.a. Oracle, Teradata, SAP BW) werden auch zusätzliche Transformationen bereitgestellt (Fuzzygruppierung und Fuzzysuche; Ausdrucksextrahierung und Ausdruckssuche).
Fazit
Bei der Lift-&-Shift-Migration können bestehende Kenntnisse und Fähigkeiten genutzt werden. Nach wie vor können die SSIS-Pakete mittels vertrauter Werkzeuge wie des SQL Server Data Tools (SSDT) und des SQL Server Management Studios (SSMS) designt, verteilt, konfiguriert, ausgeführt und überwacht werden.
Als Clouddienst bietet ADF hierbei deutliche Vorteile im Vergleich zu einer On-Premise-Lösung.
Durch die Einbindung in das Azure-Ökosystem können weitere Dienste wie HDInsight oder Azure Machine Learning problemlos angebunden werden, um im Big-Data-Umfeld schnell Analysen auf den existierenden Daten durchführen und die entsprechenden Ergebnisse weiterverwenden zu können.