- Einführung Object Storage Systeme
- Übung: Interaktion mit Object Storages per CLI und nativen Libraries
- Einführung in File Formats
- Übung: Erzeugen von Parquet Dateien
- Einführung in Cloud ETL Frameworks
Beschreibung
Das Seminar soll verschiedene Methoden vermitteln, wie die Vielzahl an Tools sinnvoll miteinander verknüpft werden können und die Teilnehmer vorbereiten, die richtige Toolauswahl für vorhandene Problemstellungen treffen zu können. Der Fokus dieses Seminars liegt darin, den Cloud-Data-Engineers das nötige Wissen zu vermitteln, wie Daten in einen Cloud Object Store geladen und dort gespeichert werden können, wie diese Daten in einem parallelen Framework skalierbar transformiert werden können und wie mit Apache Spark und Spark Streaming sowohl Batch- als auch Near-Realtime-Verarbeitungsprozesse entwickelt werden können.
Anmeldung
Agenda
Alle Übungen werden in einer Arbeitsumgebung in der AWS-Cloud durchgeführt. Bis auf einzelne Services ist diese Schulung Cloud-unabhängig und die Technologien sind auch bei anderen Cloud-Anbietern einsetzbar.
Tag 1 - Introduction to Cloud Filesystems
Tag 2 - Cloud Batch Analytics
- Data Ingestion Options
- Übung: Datenextraktion aus einer relationalen Datenbank
- Einführung Presto / Trino / AWS Athena
- Übung: AWS Athena
- Einführung in das Apache Spark Framework
- Spark SQL-Framework
- Übung: ETL mit Apache Spark
Tag 3 - Advanced Data Engineering & Streaming
- Advanced Apache Spa
- Übung: Interactive Analytics mit Spark SQL
- Moderne Data Lake Architekturen: Data Mesh und Lakehouse
- Advanced Data Formats: Delta Lake / Apache Iceberg
- Übung: Spark und Delta Lake
- Einführung Spark Streaming und Delta Lake
- Übung: Spark Streaming mit Delta Lake
Kurzinformation
Voraussetzungen
Notwendig ist ein Basiswissen von Python und/oder Java sowie SQL. Berücksichtigen Sie bitte, dass eine Mindestteilnehmerzahl von 4 Personen vorgesehen ist. Ansonsten kann das Seminar nicht stattfinden.
Methode
Präsenzseminar:
Das Seminar wird aus Vortrag, Diskussionsrunden sowie praktischen Übungen in Kleingruppen bestehen. Viele Beispiele aus der Praxis verdeutlichen die Theorie.
Zielgruppe
Das Seminar richtet sich an Data-Engineers, die verteilte Applikationen verstehen und entwickeln möchten, die auf modernen Cloud-Technologien laufen.
Sprachen
Seminar: Deutsch
Stornierung
Bei Stornierung bis zu 14 Tage vor Veranstaltungsbeginn erheben wir eine Bearbeitungsgebühr von 50% der Gebühr. Bei späteren Absagen wird der gesamte Beitrag fällig.
Sollten wir aus wichtigem Grund (z. B. Erkrankung des/der Referenten) gezwungen sein, den Kurs abzusagen, so teilen wir Ihnen dieses umgehend mit. Wir werden Ihnen in diesem Fall einen Ersatztermin anbieten. Passt dieser nicht zu Ihrer Terminplanung, erhalten Sie die bereits gezahlte Workshopgebühr in voller Höhe zurück. Darüber hinausgehende Ansprüche bestehen nicht.
Möchten Sie
als Team teilnehmen?
Melden Sie drei Teilnehmer an und erhalten Sie 10% Rabatt ab dem dritten Teilnehmer.
Workshoppreis
Die Preise sind Nettopreise und verstehen sich zuzüglich der zur Zeit gültigen Mehrwertsteuer.
Der Preis für dieses Seminar beträgt: