Seit Januar hat Amazon damit begonnen, Datenwissenschaftler und andere Ingenieure zu entlassen. Amazon folgt damit Twitter, Netflix und vielen anderen Tech-Giganten, die den Markt mit datenbezogenen Talenten überschwemmen. Viele dieser Mitarbeiter streben eine breite Palette möglicher Positionen an, von Data Scientist bis Data Engineer.
Wie heben Sie sich also ab? Immerhin übertraf die Nachfrage nach Data Engineering im Jahr 2022 die nach Data Scientists und vielen anderen Stellen, so dass dies die viertmeist ausgeschriebene Stelle im Tech-Bereich ist. Die seltsam hohe Nachfrage nach dieser speziellen Rolle trifft nun auf ein großes Angebot. Daher ist es wichtiger denn je, sich von der Masse abzuheben.
Es gibt Dutzende von Leitfäden und Artikeln, ja sogar ganze Roadmaps, die Ihnen zeigen, wie Sie in der Datentechnik beginnen und wie Sie in der Datentechnik vorankommen können. Acht Dinge, die Sie lernen sollten, um sich abzuheben. Keine ausgefallenen Dinge, nur die Dinge, die Sie tun können, nachdem Sie die Grundlagen beherrschen und seit mehr als einem Jahr im Geschäft sind.
(1) Lernen Sie die kontinuierliche Integration (CI) kennen.
Wenn Sie nicht das Glück hatten, Ihre Karriere in einem Datenteam zu beginnen, das CI-Systeme wie GitHub Actions oder GitLab CI einsetzt, ist es schwer, die Erfahrung zu sammeln, warum und wie diese Dinge funktionieren. Aber CI-Systeme bringen Ihrem Datenteam Superkräfte der Automatisierung. Diese wiederum führen zu einer höheren Qualität der Arbeit und zu einer höheren Datenqualität. Wenn Sie nicht das Glück hatten, Ihre Karriere in einem Datenteam zu beginnen, das CI-Systeme wie GitHub Actions oder GitLab CI einsetzt, ist es schwer, Erfahrungen zu sammeln, um zu wissen, warum und wie diese Dinge funktionieren, aber CI-Systeme bringen Ihrem Datenteam Automatisierungssuperkräfte. Diese wiederum führen zu einer höheren Qualität der Arbeit und zu einer höheren Datenqualität. Schauen Sie sich also die datenbezogenen CICD-Diskussionen auf reddit an, lesen Sie sich ein und bauen Sie selbst ein paar Projekte auf, indem Sie mit GitHub oder GitLab beginnen, die beide eine kostenlose Version anbieten, die Ihnen gute Dienste leisten wird.
(2) Erlernen fortgeschrittener dbt-Fähigkeiten.
Ok, wenn Sie dbt in Ihrem Unternehmen überhaupt nicht einsetzen, überspringen Sie diesen Punkt und schauen Sie sich den nächsten an. Aber wenn Sie dbt verwenden, empfehle ich Ihnen dringend, Ihre Fähigkeiten auf die nächste Stufe zu bringen. Lernen Sie etwas über Snapshots, die Verwendung von Pre-Commit-Hooks und Python-basierte Modelle. Lesen Sie den gesamten Inhalt des montreal analytics blog, dort gibt es großartige Inhalte zu fortgeschrittenem dbt. Machen Sie sich mit den gängigen dbt-Paketen vertraut, ich bin auch ein Fan von „dbt-unit-testing“. In den meisten Fällen gibt es für die meisten dbt-bezogenen Probleme ein entsprechendes Paket.
(3) Nehmen Sie Kontakt mit dem gesamten modernen Datenstapel auf.
Die Beurteilung, ob eine bestimmte Komponente des modernen Datenstapels in einem Unternehmen sinnvoll ist, ist erstaunlich schwierig. Entscheiden Sie sich für prefect gegenüber dagster und airflow? Ohne Erfahrung ist das schwer zu sagen. Deshalb ist es so wertvoll, zumindest etwas Erfahrung mit den meisten Komponenten des modernen Data Stacks zu haben. Implementieren Sie den Prefect+Snowflake+Prefect-Stack von Anna Geller. Richten Sie Dagster und Airflow ein. Verstehen Sie, warum Dagster behauptet, einzigartig zu sein. Spielen Sie mit Spark-Notebooks, machen Sie sich die Hände schmutzig und sammeln Sie Erfahrungen, die Sie von anderen abheben werden.
(4) Lernen Sie die DataOps-Mentalität kennen.
Während das Erlernen von Technologien wichtig ist, ist das Erlernen allgemeiner Hacks für die Datenproduktivität eine Art Metafähigkeit. Die DataOps-Mentalität ist genau das, eine Meta-Fähigkeit, die einen schönen Rahmen für die Verbesserung der Arbeitsabläufe Ihres Teams bietet. Ich schlage vor, Sie lesen DataKitchens Material über DataOps. Lesen Sie ihre „7 Schritte“ durch und prüfen Sie, ob Sie einige davon in Ihrem Unternehmen umsetzen können. Nehmen Sie die Klassifizierung der Tests, die sie haben, und verbessern Sie Ihr Test-Harness. Bringen Sie vielleicht sogar eine Teamdiskussion über DataOps in Gang und beginnen Sie, sich wohl dabei zu fühlen, darüber zu sprechen. Damit zeigen Sie, dass Ihnen die Leistung des Teams am Herzen liegt, nicht nur die des Einzelnen.
(5) Lernen Sie, mit Endnutzern und Geschäftsfunktionen zu sprechen.
Eine der gefragtesten Fähigkeiten für Data Engineers ist ein gutes Verständnis der geschäftlichen Seite, die Fähigkeit, mit Endnutzern und Geschäftsfunktionen in einer Weise zu sprechen, die sie verstehen. Wir versuchen manchmal, uns hinter dem Aufbau von Datenpipelines zu verstecken und ignorieren dabei die Tatsache, dass diese Pipelines Informationen an Menschen liefern, die mit diesen Informationen noch etwas anfangen müssen. Konzentrieren Sie sich darauf, versuchen Sie, mit den Endbenutzern ins Gespräch zu kommen, setzen Sie sich mit ihnen zusammen und lassen Sie sich von ihnen zeigen, wie ihre Arbeitsabläufe aussehen und was sie mit den von Ihnen gelieferten Daten machen. Wenn Sie in Ihrem derzeitigen Unternehmen nicht die Möglichkeit haben, gehen Sie zu Ihrem bevorzugten Open-Source-Projekt und leisten Sie etwas Slack-/Discourse-Support, Hilfe wird dort immer gebraucht!
(6) Docker lernen, ernsthaftes Docker.
Docker ist aus zwei Gründen so wichtig. Erstens ist heutzutage fast alles in Docker verfügbar, und es ist von Vorteil, den Hintergrund besser zu verstehen. Zweitens wird durch das Dockerisieren alles reproduzierbar, und durch die Reproduzierbarkeit können Teams viel schneller arbeiten. Ich möchte Sie ermutigen, den gesamten Lebenszyklus einer Docker-Bereitstellung zu lernen. Machen Sie weiter und bauen Sie eine einfache fastAPI, die irgendeine Art von Daten liefert. Erstellen Sie Ihr Image, testen Sie es, schieben Sie es in eine Registry, stellen Sie es in Kubernetes oder ECS bereit. Wenn Sie den ganzen Weg gehen, wird Ihnen das für Ihr Verständnis helfen.
(7) Lernen Sie zu debuggen und Fehler zu beheben.
Die Behebung von Fehlern und die Fehlersuche sind Prozessfertigkeiten. Beides ist ziemlich lästig und nimmt in der Regel viel mehr Zeit in Anspruch als nötig. Wenn Sie lernen, richtig zu debuggen, werden Sie viel erreichen. Richten Sie einen Debugger für Ihre IDE ein. Informieren Sie sich über das Debugging von dbt. Führen Sie einen Prozess zur Fehlerbehebung ein, wie die „5 Rs of bugs“.
(8) Informieren Sie sich über das Data Mesh.
Ich kann diesen Artikel nicht abschließen, ohne zu erwähnen, dass ich etwas über das Data Mesh gelernt habe. Wenn Sie als Data Engineer etwas darüber lernen wollen, empfehle ich Ihnen, ein gutes Verständnis für die geschäftliche Seite der Dinge zu bekommen. Lesen Sie sich die Einführung von Barr Moses durch. Wenn Sie wirklich tiefer in die technische Seite eintauchen wollen, habe ich einen (kostenpflichtigen) Kurs, der eine Auswahl der Grundlagen von Data Mesh auf technische Art und Weise vermittelt. Aber in der Regel reicht es aus, eine Vorstellung von einer möglichen Implementierung zu haben, um die Idee vorzustellen und eine Diskussion zu beginnen. Und das ist alles, was man als Data Engineer können muss.
Quelle: medium.com
Lesen Sie hier mehr über Lösungen im Bereich Data Engineering oder besuchen Sie eines unserer kostenlosen Webinare.