5x mehr Aus­ga­ben für ML

Es gibt zwei große Trends in der MLops-Gemein­schaft und der MLops-Indus­trie, die sich im Moment abspie­len und die auch 2024 noch anhal­ten wer­den. Ers­tens: MLops ist auf dem Vor­marsch. Laut Deloitte-Umfrage und State of AI geben fast 50 % der Befrag­ten vier­mal mehr als im letz­ten Jahr für Initia­ti­ven zum maschi­nel­len Ler­nen aus, und sie pla­nen, in den nächs­ten drei Jah­ren noch mehr in alle Unter­neh­men zu inte­grie­ren. Wir kön­nen das maschi­nelle Ler­nen in drei grund­le­gende Kate­go­rien unter­tei­len. Com­pu­ter Vision, Ver­ar­bei­tung natür­li­cher Spra­che und der Rest der Anwen­dun­gen. Das ist zwar eine stark ver­ein­fachte Kate­go­ri­sie­rung von maschi­nel­lem Ler­nen, aber den­noch kann sie Ihnen die Gesamt­struk­tur des Mark­tes zei­gen. Und ein wei­te­rer Trend ist, dass all diese Unter­neh­men und Akteure im Bereich des maschi­nel­len Ler­nens eine Cloud-Lösung für das maschi­nelle Ler­nen anbie­ten, und all diese Cloud-Lösun­gen für das maschi­nelle Ler­nen wer­den sub­op­ti­mal genutzt und konfiguriert.

Dar­über hin­aus gibt es einen spür­ba­ren Trend zur Demo­kra­ti­sie­rung von ML, wobei Tools und Platt­for­men auch für Nicht-Experten benut­zer­freund­li­cher wer­den. Dies führt zu einer brei­te­ren Akzep­tanz in ver­schie­de­nen Abtei­lun­gen von Unter­neh­men, nicht nur in IT- oder Data-Sci­ence-Teams. Der Schwer­punkt ver­la­gert sich auch auf nach­hal­ti­gere ML-Prak­ti­ken, wobei die Umwelt­aus­wir­kun­gen von Rechen­zen­tren und Rechen­res­sour­cen berück­sich­tigt werden.

Knapp­heit an ML-Fachwissen

Die Knapp­heit an ML-Fach­wis­sen hat dazu geführt, dass man sich auf externe Bera­ter und ver­wal­tete Dienste ver­lässt, was die Kos­ten wei­ter in die Höhe treibt. Um diese Lücke zu schlie­ßen, inves­tie­ren die Unter­neh­men in die Aus­bil­dung und Wei­ter­bil­dung ihrer Mit­ar­bei­ter. Dar­über hin­aus gibt es einen Trend zur Ein­füh­rung von MLaaS-Platt­for­men (Machine Lear­ning as a Ser­vice), die im Ver­gleich zum Auf­bau eige­ner Kapa­zi­tä­ten kos­ten­güns­ti­gere und ska­lier­bare Lösun­gen bieten.

Monat­li­che GCP/AWS-Rech­nun­gen in sie­ben­stel­li­ger Höhe sind das neue Normal

Nach ande­ren Unter­su­chun­gen geben fast 25 % der Unter­neh­men für maschi­nel­les Ler­nen mehr als eine halbe Mil­lion Dol­lar pro Monat für Cloud-Kos­ten wie GCP oder AWS aus. Und nach einer sehr gro­ben Schät­zung ist dies nur zu 55 % kos­ten­ef­fi­zi­ent. Dafür gibt es eine Reihe von Grün­den. Ers­tens ist ML-Fach­wis­sen ein­fach nicht ver­füg­bar. Um also einen guten Daten­wis­sen­schaft­ler zu fin­den, muss man viel Zeit, viele Res­sour­cen und viel Geld auf­wen­den. Noch schwie­ri­ger wird es, wenn man einen Data-Sci­ence-Bera­ter fin­den will, denn hier über­schnei­den sich im Wesent­li­chen drei Dis­zi­pli­nen: Soft­ware-Engi­nee­ring, Infrastruktur-Engi­nee­ring oder Sys­tem-Engi­nee­ring und maschi­nel­les Ler­nen. Und es gibt nur wenige Kan­di­da­ten, die sich qua­li­fi­zie­ren kön­nen und über aus­rei­chend Fach­wis­sen und Erfah­rung ver­fü­gen, um Ihnen bei ech­ten Worst-Case-Sze­na­rien zu helfen

Die hohen Kos­ten der Cloud-Dienste wer­den auch durch die Kom­ple­xi­tät und den Umfang der ML-Arbeits­las­ten ver­ur­sacht. Da ML-Modelle immer kom­pli­zier­ter wer­den, benö­ti­gen sie mehr Rechen­leis­tung und Spei­cher­platz. Dies erfor­dert den Ein­satz von Hoch­leis­tungs-Rechen­res­sour­cen, die teu­rer sind. Außer­dem tra­gen die Kos­ten für die Daten­über­tra­gung und ‑spei­che­rung, ins­be­son­dere bei gro­ßen Daten­men­gen, erheb­lich zu den Gesamt­kos­ten bei.

Multi-Cloud ist das neue Normal

Dar­über hin­aus erkun­den Unter­neh­men Hybrid-Cloud- und Multi-Cloud-Stra­te­gien, um Kos­ten und Leis­tung zu opti­mie­ren. Durch die Ver­tei­lung von Arbeits­las­ten auf ver­schie­dene Cloud-Anbie­ter und lokale Umge­bun­gen kön­nen sie die bes­ten Preise und Funk­tio­nen der ein­zel­nen Platt­for­men nut­zen. Die­ser Ansatz bie­tet auch eine bes­sere Aus­fall­si­cher­heit und ver­mei­det die Bin­dung an einen bestimm­ten Anbie­ter, was auf lange Sicht einen erheb­li­chen Kos­ten­fak­tor dar­stel­len kann.

66 % der Pro­jekte schaf­fen es nie in die Produktion

Ein wei­te­res Thema ist die Tat­sa­che, dass fast zwei Drit­tel der Data-Sci­ence-Pro­jekte nie in die Pro­duk­tion gehen. Einer der Gründe dafür ist, dass die Genau­ig­keit nicht aus­ge­reift genug ist und die Qua­li­tät der Erfah­rung für die End­nut­zer nicht aus­ge­reift genug ist. Es ist sehr teuer, Modelle für maschi­nel­les Ler­nen in der Grö­ßen­ord­nung des Unter­neh­mens­pro­jekts auszuführen.

Wenn die Pro­duk­tion nicht erreicht wird, liegt das oft an der Dis­kre­panz zwi­schen den Zie­len des Data-Sci­ence-Teams und den Geschäfts­zie­len. Viele Pro­jekte begin­nen als Son­die­rungs­pro­jekte, aber es fehlt ein kla­rer Weg zur Inte­gra­tion in bestehende Sys­teme oder Geschäfts­pro­zesse. Es bedarf einer bes­se­ren Abstim­mung von Anfang an, um sicher­zu­stel­len, dass ML-Pro­jekte mit Blick auf die End-to-End-Imple­men­tie­rung kon­zi­piert wer­den, ein­schließ­lich Über­le­gun­gen zur Ska­lier­bar­keit, Wart­bar­keit und Inte­gra­tion mit ande­ren Technologien.

MLOps ist ein tech­no­lo­gi­sches Pro­blem, kein mensch­li­ches Problem.

Viele Men­schen nei­gen zu der Annahme, dass MLOps eher durch man­geln­des Fach­wis­sen in drei bereichs­über­grei­fen­den Soft­ware-Engi­nee­ring-Sys­te­men oder Infrastruktur-Engi­nee­ring und Data Sci­ence und maschi­nel­les Ler­nen ver­ur­sacht wird. Aber das ist falsch, es ist nur ein Teil des Pro­blems, dass es einen Man­gel an Fach­wis­sen gibt, das all diese drei Teil­be­rei­che des Soft­ware-Engi­nee­rings ver­eint, aber tech­no­lo­gi­sche Pro­bleme, dass es eine Menge Ver­wir­rung um die archi­tek­to­ni­sche Lösung gibt, eine Menge Ver­wir­rung um Werk­zeuge und Frame­works, die im Öko­sys­tem exis­tie­ren, und einen Man­gel an Ver­wir­rung über die bes­ten Prak­ti­ken und Anwen­dungs­fälle, wie man rich­tig ein­setzt, beob­ach­tet und eine Pipe­line von Machine-Lear­ning-Model­len erstellt. Dadurch ent­ste­hen viele Lücken in der ope­ra­ti­ven Exzellenz.

Frag­men­tie­rung von MLOPS

Ein wei­te­res Pro­blem ist die Frag­men­tie­rung des MLOps-Öko­sys­tems. Es gibt eine Viel­zahl von Tools für die ver­schie­de­nen Pha­sen des ML-Lebens­zy­klus, von der Daten­auf­be­rei­tung bis zur Modell­be­reit­stel­lung, die jedoch häu­fig nicht naht­los inte­griert sind. Diese unzu­sam­men­hän­gende Land­schaft macht es schwie­rig, rei­bungs­lose, durch­gän­gige Arbeits­ab­läufe ein­zu­rich­ten, was zu Inef­fi­zi­en­zen und einem erhöh­ten Feh­ler­po­ten­zial führt.

Inte­gra­tion wird wei­ter­hin schwie­rig sein

Eine wei­tere Tat­sa­che ist, dass wir die Schwie­rig­kei­ten bei der Inte­gra­tion eines KI-Algo­rith­mus in ein voll funk­ti­ons­fä­hi­ges Sys­tem nicht bes­ser vor­her­sa­gen kön­nen, unab­hän­gig davon, ob es sich um eine API oder eine Art von Remote Pro­ce­dure Cal­ling Inter­face han­delt. Wir haben in den letz­ten zwei oder drei Jah­ren beob­ach­tet, dass die Inte­gra­tion, das Onboar­ding und der Ein­satz von KI- oder maschi­nel­len Lern­al­go­rith­men eine extrem schwie­rige Auf­gabe war, um Arbeits­las­ten zu orches­trie­ren, Ser­ver aus­zu­glei­chen, das rich­tige Maß an Gleich­zei­tig­keit zu kon­fi­gu­rie­ren, die Ska­lie­rung auf die Menge des Benut­zer­ver­kehrs vor­zu­neh­men, die Inte­gra­tion von A/B‑Tests zusam­men mit Metri­ken, Beob­acht­bar­keit und Rück­ver­folg­bar­keit für die Ergeb­nisse zu erstel­len und alle Ergeb­nisse zu agg­re­gie­ren. Es könnte Ihnen jedoch hel­fen, Ihr Pro­jekt in der rich­ti­gen Weise zu struk­tu­rie­ren, um die­ses Pro­blem in der Anfangs­phase der Ent­wick­lung anzu­ge­hen und schnell zu schei­tern, wenn Sie eine fal­sche Annahme über die Ska­lie­rung tref­fen. Abschlie­ßend möchte ich anmer­ken, dass die Kos­ten für die Erstel­lung und Ent­wick­lung von KI-Model­len in der Regel unter­schätzt wer­den, was nicht zuletzt an der Bereit­stel­lung und dem Betrieb in der Cloud liegt. Ver­ge­wis­sern Sie sich also, dass Sie Ml- oder KI-Modelle über­haupt benö­ti­gen. Und obwohl es eine Mög­lich­keit gibt, sol­che Modelle auf dem Edge oder auf Ihrer eige­nen Hard­ware oder auf dem Mobil­te­le­fon auf einem belie­bi­gen Brow­ser lau­fen zu las­sen, weil all diese moder­nen, sogar mobi­len Geräte ziem­lich gute Eigen­schaf­ten in Bezug auf die Ope­ra­tion pro Sekunde bie­ten, und sie sind ziem­lich gut in der Matrix­mul­ti­pli­ka­tion. Das ist also ein wei­te­rer Punkt, bei dem man über­le­gen sollte, ob man sich über­haupt nicht mit MLOps aus­ein­an­der­set­zen muss.

Ebenso wer­den wir mehr funk­ti­ons­über­grei­fende Teams oder hybride Teams mit Daten­wis­sen­schaft­lern, Soft­ware­inge­nieu­ren und Infra­struk­tu­r­in­ge­nieu­ren sehen, und wir könn­ten sehen, dass sich aus die­ser Kom­bi­na­tion eine neue Art von Rol­len ent­wi­ckelt, die wir noch nie zuvor gese­hen haben, wie z. B. Site Relia­bi­lity Engi­neers oder DevOps Engi­neers oder Machine Lear­ning Engineers.

Quelle: medium.com