Wenn Sie der Meinung sind, dass ich für diesen Artikel einen reißerischen Titel verwendet habe, stimme ich Ihnen zu – aber lassen Sie mich ausreden! Ich habe im Laufe der Jahre mehrere Junior Data Scientists betreut und in den letzten Jahren einen Kurs über angewandte Datenwissenschaft für Master- und Doktoranden unterrichtet. Die meisten von ihnen haben großartige technische Fähigkeiten, aber wenn es um die Anwendung von maschinellem Lernen auf reale Geschäftsprobleme geht, habe ich festgestellt, dass es einige Lücken gibt.
Im Folgenden sind die 5 Elemente aufgeführt, von denen ich mir wünschte, dass Data Scientists sie in einem geschäftlichen Kontext besser kennen würden.
In diesem Beitrag konzentriere ich mich auf ein Szenario, in dem Data Scientists mit dem Einsatz von maschinellen Lernmodellen zur Vorhersage des Kundenverhaltens betraut werden. Es ist erwähnenswert, dass die Erkenntnisse auch auf Szenarien mit Produkt- oder Sensorverhalten anwendbar sind.
1 – Denken Sie zweimal über das Ziel nach
Beginnen wir mit dem Wichtigsten von allen: dem „Was“, das Sie vorhersagen wollen. Alle nachfolgenden Schritte – Datenbereinigung, Vorverarbeitung, Algorithmus, Feature-Engineering, Optimierung von Hyperparametern – sind sinnlos, wenn Sie sich nicht auf das richtige Ziel konzentrieren
In order to be actionable, the target must represent a behavior, not a data point.
Im Idealfall ist Ihr Modell auf einen geschäftlichen Anwendungsfall ausgerichtet, bei dem Aktionen oder Entscheidungen auf seinen Ergebnissen beruhen werden. Indem Sie sicherstellen, dass das von Ihnen verwendete Ziel eine gute Darstellung des Kundenverhaltens ist, ist es für das Unternehmen einfach, die Ergebnisse des Modells zu verstehen und zu nutzen.
Beispiel für die Zielvorgabe eines Bekleidungshändlers
Stellen Sie sich vor, Sie arbeiten für einen großen Bekleidungseinzelhändler und sollen ein Modell erstellen, um Kunden zu identifizieren, die in der nächsten Woche wahrscheinlich kaufen werden.
Hier sind drei verschiedene Ziele, die Sie verwenden können:
Binär: Wird jemand in der nächsten Woche (irgendetwas) kaufen oder nicht?
In diesem Szenario wird die Kampagne, die die Ergebnisse des Modells verwendet, den Kunden mit der höchsten Kaufwahrscheinlichkeit Priorität einräumen, unabhängig von der potenziellen Kaufsumme.Kontinuierlich: Wie viel wird jemand kaufen?
In diesem Szenario wird die Kampagne, die den Output des Modells verwendet, die Kunden bevorzugen, die mehr Geld ausgeben, unabhängig von der Kaufwahrscheinlichkeit.Tendenz: Wird jemand mehr als üblich kaufen?
Alle diese Zielgruppen sind zwar valide, aber sie erfassen unterschiedliche Kundenverhaltensweisen und generieren unterschiedliche Zielgruppen für Ihre Marketingkampagne.
Dies könnte als binäres oder kontinuierliches Ziel dargestellt werden, aber in diesem Fall wird die Kampagne die Kunden bevorzugen, die wahrscheinlich ihre Ausgaben beim Einzelhändler erhöhen werden.
Bankenziel Beispiel
Stellen Sie sich vor, Sie arbeiten für eine Bank und haben den Auftrag, ein Abwanderungsmodell zu erstellen, um die Fluktuation in der Bank zu verhindern. Sie beginnen mit der Erstellung eines Modells, das die Kontoauflösungen im kommenden Monat vorhersagen soll. Ihre Bank bietet jedoch gebührenfreie Konten an, was dazu führt, dass Kunden ihre Konten nie schließen, sondern sie nur nicht mehr nutzen.
Sie schwenken um auf die Vorhersage von Konten, die im nächsten Monat inaktiv werden, was ein guter Indikator für die Abwanderung von Kunden ist. Die Definition eines ruhenden Kontos bei Ihrer Bank lautet „keine Transaktionen seit 24 Monaten“ – was nicht nur das maschinelle Lernmodell überflüssig macht, sondern auch höchst unpraktikabel ist: Wie soll man einen Kunden behalten, der seit 23 Monaten keine Transaktionen getätigt hat?
Sie konzentrieren sich auf die früheren Phasen des Kundenlebenszyklus und beschließen, die „neue Inaktivität“ des Kunden vorherzusagen, d. h., dass der Kunde im laufenden Monat keine Transaktionen im Vergleich zum vorangegangenen Monat tätigt. Sie stellen jedoch fest, dass viele Kunden die Bank nur spärlich nutzen – vielleicht haben sie nur ein oder zwei Produkte, mit denen sie nicht regelmäßig interagieren. Ihr Modell ist überwältigend, aber diese wenig aktiven Kunden sind nicht die Art von Kunden, die das Unternehmen an sich binden möchte.
Schließlich erkennen Sie, dass Sie ein handlungsfähigeres Ziel benötigen, und konzentrieren sich auf „Disengagement“. Sie definieren dies als einen Kunden, der ein konstant hohes Aktivitätsniveau aufweist, gefolgt von einem konstant niedrigen Aktivitätsniveau. So definiert, stellt Ihr Ziel ein Kundenverhalten dar, das zeitgebunden und umsetzbar ist.
Damit ein Projekt zum maschinellen Lernen erfolgreich ist, muss man ein klares Verständnis des Kundenverhaltens haben, das durch die Zielperson repräsentiert wird, und wie es mit den Geschäftszielen übereinstimmt.
2 – Umgang mit Ungleichgewicht
Das Leben ist, ähnlich wie die Daten in der realen Welt, von Natur aus unausgewogen – es ist also sehr unwahrscheinlich, dass Sie jemals an einem Geschäftsproblem arbeiten werden, dessen Daten ausgewogen sind. In meinen Jahren in der Datenwissenschaft bin ich tatsächlich noch nie auf einen realen Datensatz für maschinelles Lernen mit einer ausgewogenen Verteilung des Ziels gestoßen. Nicht einmal annähernd.
Das bedeutet, dass man wissen muss, wie man mit – manchmal extrem – unausgewogenen Daten umgeht:
Undersampling: Entfernen von zufällig ausgewählten Stichproben innerhalb der Mehrheitsklasse. Dies bedeutet zwar einen Informationsverlust, ist aber eine praktikable Option, wenn es um umfangreiche Datensätze geht. Es ist wichtig zu beachten, dass ein perfekt ausgewogenes 50/50-Verhältnis nicht immer notwendig ist. Verhältnisse wie 60/40, 75/25 oder 80/20 können sich als ebenso effektiv oder sogar noch effektiver erweisen und bieten einen guten Kompromiss zwischen der Erhaltung des Datenvolumens und der Abschwächung der Auswirkungen von Ungleichgewichten.
Oversampling: Duplizieren von Stichproben der Minderheitenklasse oder vollständige Erstellung neuer synthetischer (auch gefälschter!) Datenpunkte, wenn Sie z. B. SMOTE verwenden. Mit dieser Technik werden die begrenzten vorhandenen Informationen in einem Datensatz überbewertet. Ich persönlich habe Vorbehalte, mich stark auf synthetische Daten zu verlassen. Wenn ich die Wahl habe, empfehle ich, in den Erwerb authentischerer Stichproben zu investieren, um die Repräsentativität des Datensatzes zu erhöhen.
Nichts tun: Die Entscheidung, nichts zu tun, ist eine legitime Option, wenn es um unausgewogene Datensätze geht. Dabei wird bewertet, ob der Algorithmus relevante Informationen ausreichend erfassen kann, ohne spezielle Stichprobenverfahren anzuwenden. Kann der Algorithmus aus der vorhandenen Datenverteilung lernen?
3 – Tests müssen realitätsnah sein
Jeder Data Scientist weiß, wie wichtig es ist, ungesehene (Test-)Daten zu behalten, um die Leistung eines maschinellen Lernmodells unter realen Bedingungen zu bewerten.
Überraschenderweise habe ich gesehen, dass sowohl Masterstudenten als auch operativ tätige Datenwissenschaftler einen kritischen Fehler begehen, indem sie ihre Daten neu ausbalancieren, bevor sie in Trainings- und Testdaten aufgeteilt werden. Dies führt zu unrealistischen Testdaten und verzerrten Leistungsbewertungen.
Der Testdatensatz muss unangetastet bleiben – er sollte die ursprüngliche Verteilung des Ziels in seinen Daten beibehalten.
Auf diese Weise wird sichergestellt, dass das Modell anhand einer repräsentativen Stichprobe bewertet wird, die die realen Szenarien widerspiegelt, auf die es treffen wird.
Die Methode „Ein letzter Trainingszyklus“:
In einigen Szenarien, in denen die Datenmenge begrenzt ist, besteht eine mögliche Strategie darin, am Ende des Modellbildungsprozesses einen letzten Trainingszyklus hinzuzufügen.
Wenn die Iterationen des Feature-Engineerings und der Parameterabstimmung abgeschlossen sind und das Modell so gut wie möglich ist (gemessen an den Testdaten), beinhaltet diese Methode einen zusätzlichen Trainingszyklus, bei dem die Trainings- und Testdaten kombiniert werden.
Das Konzept hinter diesem Ansatz besteht darin, dem Algorithmus einen letzten Leistungsschub zu geben, indem er einem etwas größeren Datensatz ausgesetzt wird. Es wird davon ausgegangen, dass dieses zusätzliche Training die Fähigkeiten des Modells verbessert, auch wenn die genaue Verbesserung unbekannt bleibt.
Ich persönlich habe diese Methode nicht verwendet. Das liegt daran, dass ich es vorziehe, bekannte Leistungskennzahlen für das Endprodukt zu haben.
4 – Verwenden Sie aussagekräftige Leistungsindikatoren
Da sie für die Prävalenz der Klassen nicht empfindlich sind, sind Genauigkeit, ROC-Kurve und Fläche unter der ROC-Kurve für Modelle mit unausgewogenen Klassen ungeeignet. (Hier finden Sie einige Hintergrundinformationen zu Leistungskennzahlen).
In realen Vorhersageszenarien, wie in den obigen Beispielen aus dem Einzelhandel und dem Bankwesen, wird das interessierende Verhalten häufig durch die Minderheitsklasse repräsentiert. In Anbetracht des Ziels, einen kleinen Teil der Kunden innerhalb des breiteren Kundenstamms zu identifizieren, ist es von Interesse, wie gut das Modell die echten Positiven identifiziert – und nicht so sehr, wie gut das Modell die echten Negativen identifiziert.
In einem Marketingumfeld versucht man oft, die Präzision zu optimieren – wie qualifiziert ist die Zielgruppe, die aus dem Modell hervorgeht -, weshalb Präzision und Bereich unter der Präzisions- und Recall-Kurve die Metriken der Wahl sind.
Darüber hinaus kann die Präzision in einer geschäftsfreundlichen Art und Weise formuliert werden, um das Verständnis der Stakeholder zu verbessern. Nehmen wir ein Beispiel mit einer Genauigkeit von 15 % für eine Zielgruppe von tausend Kunden:
„Die Zielgruppe des Modells von 1.000 Kunden wird voraussichtlich 150 Käufe hervorbringen, verglichen mit nur 5 Käufen, wenn die Zielgruppe zufällig ausgewählt wird.“
5 – Die Bedeutung von Scores
In einem binären Klassifizierungskontext werden einwertige Metriken wie Precision in der Regel auf der Grundlage eines Standardgrenzwerts von 0,5″ berechnet.
- Kunden mit einer Vorhersage (Punktzahl) < 0,5 werden als „negativ“ eingestuft, während Kunden mit einer Vorhersage von 0,5 oder mehr als „positiv“ eingestuft werden.
Die Verwendung dieses Standardwerts wirft jedoch zwei Probleme auf:
Problem 1: Der Standardwert ist für unausgewogene Datensätze nicht aussagekräftig
Unausgewogene Datensätze führen zu unausgewogenen Ergebnissen. Die Verteilung der vorhergesagten Werte wird nicht einer Normalverteilung mit einem Mittelwert von 0,5 folgen. Die Verwendung des Standard-Cut-Offs kann zu sehr kleinen oder sehr großen Gruppen von negativen und positiven Ergebnissen führen.
Problem 2: Mangelnde Kontrolle über die Anpassung der Modellausgaben
Wenn man sich auf die „positive“ Gruppe – das qualifizierte Publikum – konzentriert, ist es wichtig, die Größe und die Eigenschaften des Publikums flexibel steuern zu können:
- Wenn das Unternehmen eine teure Aktion für die Zielgruppe plant (z. B. ein kostenloses Produkt für jemanden, der kurz vor dem Wechsel steht), könnte der Schwerpunkt auf einer hohen Präzision liegen (=hoher Cut-off, kleine und hochqualifizierte Zielgruppe).
- Wenn andererseits die Kosten für ein Versäumnis beträchtlich sind (z. B. bei einem Krebserkennungsmodell), könnte sich die Priorität auf eine hohe Auffindbarkeit verlagern (=niedriger Cut-off, große und weniger qualifizierte Zielgruppe).
Ich ziehe es vor, binäre Klassifizierungsmodelle als Ranking-Tools zu betrachten. Anstatt strenge Gruppen von Positiven und Negativen zuzuweisen, ordnet das Modell einfach eine Liste von Kunden auf der Grundlage ihrer Wahrscheinlichkeit, ein bestimmtes Verhalten zu zeigen. Es liegt dann in der Verantwortung des Datenwissenschaftlers, den geeigneten Grenzwert zu bestimmen und dabei ein Gleichgewicht zwischen der Größe der qualifizierten Zielgruppe und der prognostizierten Leistung herzustellen.
Geschäftsinteressenten müssen keine Scores sehen
„0,3 ist eine ziemlich niedrige Punktzahl“ – das kann sein, muss aber nicht sein! Bei unausgewogenen Datensätzen kann ein Kunde mit einem Wert von 0,3 zu den besten Prognosen gehören.
Die Interessenvertreter der Unternehmen werden sich an den Punktwerten orientieren, ohne das Gesamtbild zu sehen.
In Szenarien mit mehreren Modellen, die unterschiedliche Verhaltensweisen vorhersagen (z. B. Kauf von T‑Shirts, Hosen, Jacken, Handtaschen), kann der Vergleich von Modellen auf der Grundlage von Rohwerten irreführend sein. Ein Wert von 0,3 könnte für das Hosenmodell als niedrig, für das Handtaschenmodell jedoch als hoch angesehen werden.
Eine wirksame Strategie ist die Verwendung von Rängen oder Dezilen, anstatt die Punktzahlen mit den Beteiligten zu teilen. Es ist zum Beispiel hilfreich, Ergebnisse wie folgt zu präsentieren:
„Hier sind die 1000 Kunden, die am ehesten ein Produkt kaufen würden. Unser Test zeigt, dass 15 % dieser Gruppe einen Kauf tätigen werden, verglichen mit 5 % bei einer zufälligen Auswahl.
Dieser Ansatz ermöglicht ein klareres Verständnis der Leistung verschiedener Modelle, ohne die Mehrdeutigkeit, die mit Rohwerten verbunden ist.
Bei Geschäftsanwendungen, bei denen die Größe der Zielgruppe im Voraus festgelegt ist, z. B. bei der Auswahl der 5 Millionen Kunden, die am wahrscheinlichsten jede Woche XYZ kaufen, sind die individuellen Ergebnisse weniger wichtig. Das Hauptaugenmerk liegt auf der Auswahl der besten 5 Millionen Kunden, unabhängig davon, wie hoch der Wert ihrer Scores ist.
Schlussfolgerung
- Bei der Auswahl des richtigen Ziels geht es nicht um einen Datenpunkt, sondern um die Erfassung von umsetzbarem Verhalten.
- Der Aufbau von Modellen für maschinelles Lernen auf unausgewogenen Daten erfordert den richtigen Messrahmen und durchdachte Kommunikationsstrategien für die Unternehmensbeteiligten.
Ich hoffe, dass dies sinnvoll und hilfreich ist – was habe ich übersehen? Für die erfahrenen Leser: Was sind weitere wichtige Aspekte der prädiktiven Modellierung, die sich in der Praxis als wertvoll erwiesen haben, aber vielleicht in der formalen Ausbildung nicht behandelt wurden?
Quelle: medium.com