5x mehr Ausgaben für ML
Es gibt zwei große Trends in der MLops-Gemeinschaft und der MLops-Industrie, die sich im Moment abspielen und die auch 2024 noch anhalten werden. Erstens: MLops ist auf dem Vormarsch. Laut Deloitte-Umfrage und State of AI geben fast 50 % der Befragten viermal mehr als im letzten Jahr für Initiativen zum maschinellen Lernen aus, und sie planen, in den nächsten drei Jahren noch mehr in alle Unternehmen zu integrieren. Wir können das maschinelle Lernen in drei grundlegende Kategorien unterteilen. Computer Vision, Verarbeitung natürlicher Sprache und der Rest der Anwendungen. Das ist zwar eine stark vereinfachte Kategorisierung von maschinellem Lernen, aber dennoch kann sie Ihnen die Gesamtstruktur des Marktes zeigen. Und ein weiterer Trend ist, dass all diese Unternehmen und Akteure im Bereich des maschinellen Lernens eine Cloud-Lösung für das maschinelle Lernen anbieten, und all diese Cloud-Lösungen für das maschinelle Lernen werden suboptimal genutzt und konfiguriert.
Darüber hinaus gibt es einen spürbaren Trend zur Demokratisierung von ML, wobei Tools und Plattformen auch für Nicht-Experten benutzerfreundlicher werden. Dies führt zu einer breiteren Akzeptanz in verschiedenen Abteilungen von Unternehmen, nicht nur in IT- oder Data-Science-Teams. Der Schwerpunkt verlagert sich auch auf nachhaltigere ML-Praktiken, wobei die Umweltauswirkungen von Rechenzentren und Rechenressourcen berücksichtigt werden.
Knappheit an ML-Fachwissen
Die Knappheit an ML-Fachwissen hat dazu geführt, dass man sich auf externe Berater und verwaltete Dienste verlässt, was die Kosten weiter in die Höhe treibt. Um diese Lücke zu schließen, investieren die Unternehmen in die Ausbildung und Weiterbildung ihrer Mitarbeiter. Darüber hinaus gibt es einen Trend zur Einführung von MLaaS-Plattformen (Machine Learning as a Service), die im Vergleich zum Aufbau eigener Kapazitäten kostengünstigere und skalierbare Lösungen bieten.
Monatliche GCP/AWS-Rechnungen in siebenstelliger Höhe sind das neue Normal
Nach anderen Untersuchungen geben fast 25 % der Unternehmen für maschinelles Lernen mehr als eine halbe Million Dollar pro Monat für Cloud-Kosten wie GCP oder AWS aus. Und nach einer sehr groben Schätzung ist dies nur zu 55 % kosteneffizient. Dafür gibt es eine Reihe von Gründen. Erstens ist ML-Fachwissen einfach nicht verfügbar. Um also einen guten Datenwissenschaftler zu finden, muss man viel Zeit, viele Ressourcen und viel Geld aufwenden. Noch schwieriger wird es, wenn man einen Data-Science-Berater finden will, denn hier überschneiden sich im Wesentlichen drei Disziplinen: Software-Engineering, Infrastruktur-Engineering oder System-Engineering und maschinelles Lernen. Und es gibt nur wenige Kandidaten, die sich qualifizieren können und über ausreichend Fachwissen und Erfahrung verfügen, um Ihnen bei echten Worst-Case-Szenarien zu helfen
Die hohen Kosten der Cloud-Dienste werden auch durch die Komplexität und den Umfang der ML-Arbeitslasten verursacht. Da ML-Modelle immer komplizierter werden, benötigen sie mehr Rechenleistung und Speicherplatz. Dies erfordert den Einsatz von Hochleistungs-Rechenressourcen, die teurer sind. Außerdem tragen die Kosten für die Datenübertragung und ‑speicherung, insbesondere bei großen Datenmengen, erheblich zu den Gesamtkosten bei.
Multi-Cloud ist das neue Normal
Darüber hinaus erkunden Unternehmen Hybrid-Cloud- und Multi-Cloud-Strategien, um Kosten und Leistung zu optimieren. Durch die Verteilung von Arbeitslasten auf verschiedene Cloud-Anbieter und lokale Umgebungen können sie die besten Preise und Funktionen der einzelnen Plattformen nutzen. Dieser Ansatz bietet auch eine bessere Ausfallsicherheit und vermeidet die Bindung an einen bestimmten Anbieter, was auf lange Sicht einen erheblichen Kostenfaktor darstellen kann.
66 % der Projekte schaffen es nie in die Produktion
Ein weiteres Thema ist die Tatsache, dass fast zwei Drittel der Data-Science-Projekte nie in die Produktion gehen. Einer der Gründe dafür ist, dass die Genauigkeit nicht ausgereift genug ist und die Qualität der Erfahrung für die Endnutzer nicht ausgereift genug ist. Es ist sehr teuer, Modelle für maschinelles Lernen in der Größenordnung des Unternehmensprojekts auszuführen.
Wenn die Produktion nicht erreicht wird, liegt das oft an der Diskrepanz zwischen den Zielen des Data-Science-Teams und den Geschäftszielen. Viele Projekte beginnen als Sondierungsprojekte, aber es fehlt ein klarer Weg zur Integration in bestehende Systeme oder Geschäftsprozesse. Es bedarf einer besseren Abstimmung von Anfang an, um sicherzustellen, dass ML-Projekte mit Blick auf die End-to-End-Implementierung konzipiert werden, einschließlich Überlegungen zur Skalierbarkeit, Wartbarkeit und Integration mit anderen Technologien.
MLOps ist ein technologisches Problem, kein menschliches Problem.
Viele Menschen neigen zu der Annahme, dass MLOps eher durch mangelndes Fachwissen in drei bereichsübergreifenden Software-Engineering-Systemen oder Infrastruktur-Engineering und Data Science und maschinelles Lernen verursacht wird. Aber das ist falsch, es ist nur ein Teil des Problems, dass es einen Mangel an Fachwissen gibt, das all diese drei Teilbereiche des Software-Engineerings vereint, aber technologische Probleme, dass es eine Menge Verwirrung um die architektonische Lösung gibt, eine Menge Verwirrung um Werkzeuge und Frameworks, die im Ökosystem existieren, und einen Mangel an Verwirrung über die besten Praktiken und Anwendungsfälle, wie man richtig einsetzt, beobachtet und eine Pipeline von Machine-Learning-Modellen erstellt. Dadurch entstehen viele Lücken in der operativen Exzellenz.
Fragmentierung von MLOPS
Ein weiteres Problem ist die Fragmentierung des MLOps-Ökosystems. Es gibt eine Vielzahl von Tools für die verschiedenen Phasen des ML-Lebenszyklus, von der Datenaufbereitung bis zur Modellbereitstellung, die jedoch häufig nicht nahtlos integriert sind. Diese unzusammenhängende Landschaft macht es schwierig, reibungslose, durchgängige Arbeitsabläufe einzurichten, was zu Ineffizienzen und einem erhöhten Fehlerpotenzial führt.
Integration wird weiterhin schwierig sein
Eine weitere Tatsache ist, dass wir die Schwierigkeiten bei der Integration eines KI-Algorithmus in ein voll funktionsfähiges System nicht besser vorhersagen können, unabhängig davon, ob es sich um eine API oder eine Art von Remote Procedure Calling Interface handelt. Wir haben in den letzten zwei oder drei Jahren beobachtet, dass die Integration, das Onboarding und der Einsatz von KI- oder maschinellen Lernalgorithmen eine extrem schwierige Aufgabe war, um Arbeitslasten zu orchestrieren, Server auszugleichen, das richtige Maß an Gleichzeitigkeit zu konfigurieren, die Skalierung auf die Menge des Benutzerverkehrs vorzunehmen, die Integration von A/B‑Tests zusammen mit Metriken, Beobachtbarkeit und Rückverfolgbarkeit für die Ergebnisse zu erstellen und alle Ergebnisse zu aggregieren. Es könnte Ihnen jedoch helfen, Ihr Projekt in der richtigen Weise zu strukturieren, um dieses Problem in der Anfangsphase der Entwicklung anzugehen und schnell zu scheitern, wenn Sie eine falsche Annahme über die Skalierung treffen. Abschließend möchte ich anmerken, dass die Kosten für die Erstellung und Entwicklung von KI-Modellen in der Regel unterschätzt werden, was nicht zuletzt an der Bereitstellung und dem Betrieb in der Cloud liegt. Vergewissern Sie sich also, dass Sie Ml- oder KI-Modelle überhaupt benötigen. Und obwohl es eine Möglichkeit gibt, solche Modelle auf dem Edge oder auf Ihrer eigenen Hardware oder auf dem Mobiltelefon auf einem beliebigen Browser laufen zu lassen, weil all diese modernen, sogar mobilen Geräte ziemlich gute Eigenschaften in Bezug auf die Operation pro Sekunde bieten, und sie sind ziemlich gut in der Matrixmultiplikation. Das ist also ein weiterer Punkt, bei dem man überlegen sollte, ob man sich überhaupt nicht mit MLOps auseinandersetzen muss.
Ebenso werden wir mehr funktionsübergreifende Teams oder hybride Teams mit Datenwissenschaftlern, Softwareingenieuren und Infrastrukturingenieuren sehen, und wir könnten sehen, dass sich aus dieser Kombination eine neue Art von Rollen entwickelt, die wir noch nie zuvor gesehen haben, wie z. B. Site Reliability Engineers oder DevOps Engineers oder Machine Learning Engineers.
Quelle: medium.com