Seit Januar hat Ama­zon damit begon­nen, Daten­wis­sen­schaft­ler und andere Inge­nieure zu ent­las­sen. Ama­zon folgt damit Twit­ter, Net­flix und vie­len ande­ren Tech-Gigan­ten, die den Markt mit daten­be­zo­ge­nen Talen­ten über­schwem­men. Viele die­ser Mit­ar­bei­ter stre­ben eine breite Palette mög­li­cher Posi­tio­nen an, von Data Sci­en­tist bis Data Engineer.

Wie heben Sie sich also ab? Immer­hin über­traf die Nach­frage nach Data Engi­nee­ring im Jahr 2022 die nach Data Sci­en­tists und vie­len ande­ren Stel­len, so dass dies die viert­meist aus­ge­schrie­bene Stelle im Tech-Bereich ist. Die selt­sam hohe Nach­frage nach die­ser spe­zi­el­len Rolle trifft nun auf ein gro­ßes Ange­bot. Daher ist es wich­ti­ger denn je, sich von der Masse abzuheben.

Es gibt Dut­zende von Leit­fä­den und Arti­keln, ja sogar ganze Road­maps, die Ihnen zei­gen, wie Sie in der Daten­tech­nik begin­nen und wie Sie in der Daten­tech­nik vor­an­kom­men kön­nen. Acht Dinge, die Sie ler­nen soll­ten, um sich abzu­he­ben. Keine aus­ge­fal­le­nen Dinge, nur die Dinge, die Sie tun kön­nen, nach­dem Sie die Grund­la­gen beherr­schen und seit mehr als einem Jahr im Geschäft sind.

(1) Ler­nen Sie die kon­ti­nu­ier­li­che Inte­gra­tion (CI) kennen.

Wenn Sie nicht das Glück hat­ten, Ihre Kar­riere in einem Daten­team zu begin­nen, das CI-Sys­teme wie Git­Hub Actions oder Git­Lab CI ein­setzt, ist es schwer, die Erfah­rung zu sam­meln, warum und wie diese Dinge funk­tio­nie­ren. Aber CI-Sys­teme brin­gen Ihrem Daten­team Super­kräfte der Auto­ma­ti­sie­rung. Diese wie­derum füh­ren zu einer höhe­ren Qua­li­tät der Arbeit und zu einer höhe­ren Daten­qua­li­tät. Wenn Sie nicht das Glück hat­ten, Ihre Kar­riere in einem Daten­team zu begin­nen, das CI-Sys­teme wie Git­Hub Actions oder Git­Lab CI ein­setzt, ist es schwer, Erfah­run­gen zu sam­meln, um zu wis­sen, warum und wie diese Dinge funk­tio­nie­ren, aber CI-Sys­teme brin­gen Ihrem Daten­team Auto­ma­ti­sie­rungs­su­per­kräfte. Diese wie­derum füh­ren zu einer höhe­ren Qua­li­tät der Arbeit und zu einer höhe­ren Daten­qua­li­tät. Schauen Sie sich also die daten­be­zo­ge­nen CICD-Dis­kus­sio­nen auf red­dit an, lesen Sie sich ein und bauen Sie selbst ein paar Pro­jekte auf, indem Sie mit Git­Hub oder Git­Lab begin­nen, die beide eine kos­ten­lose Ver­sion anbie­ten, die Ihnen gute Dienste leis­ten wird.

(2) Erler­nen fort­ge­schrit­te­ner dbt-Fähigkeiten.

Ok, wenn Sie dbt in Ihrem Unter­neh­men über­haupt nicht ein­set­zen, über­sprin­gen Sie die­sen Punkt und schauen Sie sich den nächs­ten an. Aber wenn Sie dbt ver­wen­den, emp­fehle ich Ihnen drin­gend, Ihre Fähig­kei­ten auf die nächste Stufe zu brin­gen. Ler­nen Sie etwas über Snapshots, die Ver­wen­dung von Pre-Com­mit-Hooks und Python-basierte Modelle. Lesen Sie den gesam­ten Inhalt des mont­real ana­ly­tics blog, dort gibt es groß­ar­tige Inhalte zu fort­ge­schrit­te­nem dbt. Machen Sie sich mit den gän­gi­gen dbt-Pake­ten ver­traut, ich bin auch ein Fan von „dbt-unit-test­ing“. In den meis­ten Fäl­len gibt es für die meis­ten dbt-bezo­ge­nen Pro­bleme ein ent­spre­chen­des Paket.

(3) Neh­men Sie Kon­takt mit dem gesam­ten moder­nen Daten­sta­pel auf.

Die Beur­tei­lung, ob eine bestimmte Kom­po­nente des moder­nen Daten­sta­pels in einem Unter­neh­men sinn­voll ist, ist erstaun­lich schwie­rig. Ent­schei­den Sie sich für pre­fect gegen­über dags­ter und air­flow? Ohne Erfah­rung ist das schwer zu sagen. Des­halb ist es so wert­voll, zumin­dest etwas Erfah­rung mit den meis­ten Kom­po­nen­ten des moder­nen Data Stacks zu haben. Imple­men­tie­ren Sie den Prefect+Snowflake+Prefect-Stack von Anna Gel­ler. Rich­ten Sie Dags­ter und Air­flow ein. Ver­ste­hen Sie, warum Dags­ter behaup­tet, ein­zig­ar­tig zu sein. Spie­len Sie mit Spark-Note­books, machen Sie sich die Hände schmut­zig und sam­meln Sie Erfah­run­gen, die Sie von ande­ren abhe­ben werden.

(4) Ler­nen Sie die Data­Ops-Men­ta­li­tät kennen.

Wäh­rend das Erler­nen von Tech­no­lo­gien wich­tig ist, ist das Erler­nen all­ge­mei­ner Hacks für die Daten­pro­duk­ti­vi­tät eine Art Meta­fä­hig­keit. Die Data­Ops-Men­ta­li­tät ist genau das, eine Meta-Fähig­keit, die einen schö­nen Rah­men für die Ver­bes­se­rung der Arbeits­ab­läufe Ihres Teams bie­tet. Ich schlage vor, Sie lesen Data­Kit­chens Mate­rial über Data­Ops. Lesen Sie ihre „7 Schritte“ durch und prü­fen Sie, ob Sie einige davon in Ihrem Unter­neh­men umset­zen kön­nen. Neh­men Sie die Klas­si­fi­zie­rung der Tests, die sie haben, und ver­bes­sern Sie Ihr Test-Harness. Brin­gen Sie viel­leicht sogar eine Team­dis­kus­sion über Data­Ops in Gang und begin­nen Sie, sich wohl dabei zu füh­len, dar­über zu spre­chen. Damit zei­gen Sie, dass Ihnen die Leis­tung des Teams am Her­zen liegt, nicht nur die des Einzelnen.

(5) Ler­nen Sie, mit End­nut­zern und Geschäfts­funk­tio­nen zu sprechen.

Eine der gefrag­tes­ten Fähig­kei­ten für Data Engi­neers ist ein gutes Ver­ständ­nis der geschäft­li­chen Seite, die Fähig­keit, mit End­nut­zern und Geschäfts­funk­tio­nen in einer Weise zu spre­chen, die sie ver­ste­hen. Wir ver­su­chen manch­mal, uns hin­ter dem Auf­bau von Daten­pipe­lines zu ver­ste­cken und igno­rie­ren dabei die Tat­sa­che, dass diese Pipe­lines Infor­ma­tio­nen an Men­schen lie­fern, die mit die­sen Infor­ma­tio­nen noch etwas anfan­gen müs­sen. Kon­zen­trie­ren Sie sich dar­auf, ver­su­chen Sie, mit den End­be­nut­zern ins Gespräch zu kom­men, set­zen Sie sich mit ihnen zusam­men und las­sen Sie sich von ihnen zei­gen, wie ihre Arbeits­ab­läufe aus­se­hen und was sie mit den von Ihnen gelie­fer­ten Daten machen. Wenn Sie in Ihrem der­zei­ti­gen Unter­neh­men nicht die Mög­lich­keit haben, gehen Sie zu Ihrem bevor­zug­ten Open-Source-Pro­jekt und leis­ten Sie etwas Slack-/Dis­course-Sup­port, Hilfe wird dort immer gebraucht!

(6) Docker ler­nen, ernst­haf­tes Docker.

Docker ist aus zwei Grün­den so wich­tig. Ers­tens ist heut­zu­tage fast alles in Docker ver­füg­bar, und es ist von Vor­teil, den Hin­ter­grund bes­ser zu ver­ste­hen. Zwei­tens wird durch das Docke­ri­sie­ren alles repro­du­zier­bar, und durch die Repro­du­zier­bar­keit kön­nen Teams viel schnel­ler arbei­ten. Ich möchte Sie ermu­ti­gen, den gesam­ten Lebens­zy­klus einer Docker-Bereit­stel­lung zu ler­nen. Machen Sie wei­ter und bauen Sie eine ein­fa­che fas­tAPI, die irgend­eine Art von Daten lie­fert. Erstel­len Sie Ihr Image, tes­ten Sie es, schie­ben Sie es in eine Regis­try, stel­len Sie es in Kuber­netes oder ECS bereit. Wenn Sie den gan­zen Weg gehen, wird Ihnen das für Ihr Ver­ständ­nis helfen.

(7) Ler­nen Sie zu debug­gen und Feh­ler zu beheben.

Die Behe­bung von Feh­lern und die Feh­ler­su­che sind Pro­zess­fer­tig­kei­ten. Bei­des ist ziem­lich läs­tig und nimmt in der Regel viel mehr Zeit in Anspruch als nötig. Wenn Sie ler­nen, rich­tig zu debug­gen, wer­den Sie viel errei­chen. Rich­ten Sie einen Debug­ger für Ihre IDE ein. Infor­mie­ren Sie sich über das Debug­ging von dbt. Füh­ren Sie einen Pro­zess zur Feh­ler­be­he­bung ein, wie die „5 Rs of bugs“.

(8) Infor­mie­ren Sie sich über das Data Mesh.

Ich kann die­sen Arti­kel nicht abschlie­ßen, ohne zu erwäh­nen, dass ich etwas über das Data Mesh gelernt habe. Wenn Sie als Data Engi­neer etwas dar­über ler­nen wol­len, emp­fehle ich Ihnen, ein gutes Ver­ständ­nis für die geschäft­li­che Seite der Dinge zu bekom­men. Lesen Sie sich die Ein­füh­rung von Barr Moses durch. Wenn Sie wirk­lich tie­fer in die tech­ni­sche Seite ein­tau­chen wol­len, habe ich einen (kos­ten­pflich­ti­gen) Kurs, der eine Aus­wahl der Grund­la­gen von Data Mesh auf tech­ni­sche Art und Weise ver­mit­telt. Aber in der Regel reicht es aus, eine Vor­stel­lung von einer mög­li­chen Imple­men­tie­rung zu haben, um die Idee vor­zu­stel­len und eine Dis­kus­sion zu begin­nen. Und das ist alles, was man als Data Engi­neer kön­nen muss.

Quelle: medium.com

Lesen Sie hier mehr über Lösun­gen im Bereich Data Engi­nee­ring oder besu­chen Sie eines unse­rer kos­ten­lo­sen Web­i­nare.