Wenn Sie der Mei­nung sind, dass ich für die­sen Arti­kel einen rei­ße­ri­schen Titel ver­wen­det habe, stimme ich Ihnen zu – aber las­sen Sie mich aus­re­den! Ich habe im Laufe der Jahre meh­rere Junior Data Sci­en­tists betreut und in den letz­ten Jah­ren einen Kurs über ange­wandte Daten­wis­sen­schaft für Mas­ter- und Dok­to­ran­den unter­rich­tet. Die meis­ten von ihnen haben groß­ar­tige tech­ni­sche Fähig­kei­ten, aber wenn es um die Anwen­dung von maschi­nel­lem Ler­nen auf reale Geschäfts­pro­bleme geht, habe ich fest­ge­stellt, dass es einige Lücken gibt.

Im Fol­gen­den sind die 5 Ele­mente auf­ge­führt, von denen ich mir wünschte, dass Data Sci­en­tists sie in einem geschäft­li­chen Kon­text bes­ser ken­nen würden.

In die­sem Bei­trag kon­zen­triere ich mich auf ein Sze­na­rio, in dem Data Sci­en­tists mit dem Ein­satz von maschi­nel­len Lern­mo­del­len zur Vor­her­sage des Kun­den­ver­hal­tens betraut wer­den. Es ist erwäh­nens­wert, dass die Erkennt­nisse auch auf Sze­na­rien mit Pro­dukt- oder Sen­sor­ver­hal­ten anwend­bar sind.

1 – Den­ken Sie zwei­mal über das Ziel nach

Begin­nen wir mit dem Wich­tigs­ten von allen: dem „Was“, das Sie vor­her­sa­gen wol­len. Alle nach­fol­gen­den Schritte – Daten­be­rei­ni­gung, Vor­ver­ar­bei­tung, Algo­rith­mus, Fea­ture-Engi­nee­ring, Opti­mie­rung von Hyper­pa­ra­me­tern – sind sinn­los, wenn Sie sich nicht auf das rich­tige Ziel konzentrieren

In order to be actionable, the tar­get must repre­sent a beha­vior, not a data point.

Im Ide­al­fall ist Ihr Modell auf einen geschäft­li­chen Anwen­dungs­fall aus­ge­rich­tet, bei dem Aktio­nen oder Ent­schei­dun­gen auf sei­nen Ergeb­nis­sen beru­hen wer­den. Indem Sie sicher­stel­len, dass das von Ihnen ver­wen­dete Ziel eine gute Dar­stel­lung des Kun­den­ver­hal­tens ist, ist es für das Unter­neh­men ein­fach, die Ergeb­nisse des Modells zu ver­ste­hen und zu nutzen.

Bei­spiel für die Ziel­vor­gabe eines Beklei­dungs­händ­lers
Stel­len Sie sich vor, Sie arbei­ten für einen gro­ßen Beklei­dungs­ein­zel­händ­ler und sol­len ein Modell erstel­len, um Kun­den zu iden­ti­fi­zie­ren, die in der nächs­ten Woche wahr­schein­lich kau­fen werden.

Hier sind drei ver­schie­dene Ziele, die Sie ver­wen­den können:

Binär: Wird jemand in der nächs­ten Woche (irgend­et­was) kau­fen oder nicht?
In die­sem Sze­na­rio wird die Kam­pa­gne, die die Ergeb­nisse des Modells ver­wen­det, den Kun­den mit der höchs­ten Kauf­wahr­schein­lich­keit Prio­ri­tät ein­räu­men, unab­hän­gig von der poten­zi­el­len Kaufsumme.

Kon­ti­nu­ier­lich: Wie viel wird jemand kau­fen?
In die­sem Sze­na­rio wird die Kam­pa­gne, die den Out­put des Modells ver­wen­det, die Kun­den bevor­zu­gen, die mehr Geld aus­ge­ben, unab­hän­gig von der Kaufwahrscheinlichkeit.

Ten­denz: Wird jemand mehr als üblich kau­fen?
Dies könnte als binä­res oder kon­ti­nu­ier­li­ches Ziel dar­ge­stellt wer­den, aber in die­sem Fall wird die Kam­pa­gne die Kun­den bevor­zu­gen, die wahr­schein­lich ihre Aus­ga­ben beim Ein­zel­händ­ler erhö­hen werden.

Alle diese Ziel­grup­pen sind zwar valide, aber sie erfas­sen unter­schied­li­che Kun­den­ver­hal­tens­wei­sen und gene­rie­ren unter­schied­li­che Ziel­grup­pen für Ihre Marketingkampagne.

Ban­ken­ziel Bei­spiel
Stel­len Sie sich vor, Sie arbei­ten für eine Bank und haben den Auf­trag, ein Abwan­de­rungs­mo­dell zu erstel­len, um die Fluk­tua­tion in der Bank zu ver­hin­dern. Sie begin­nen mit der Erstel­lung eines Modells, das die Kon­to­auf­lö­sun­gen im kom­men­den Monat vor­her­sa­gen soll. Ihre Bank bie­tet jedoch gebüh­ren­freie Kon­ten an, was dazu führt, dass Kun­den ihre Kon­ten nie schlie­ßen, son­dern sie nur nicht mehr nutzen.

Sie schwen­ken um auf die Vor­her­sage von Kon­ten, die im nächs­ten Monat inak­tiv wer­den, was ein guter Indi­ka­tor für die Abwan­de­rung von Kun­den ist. Die Defi­ni­tion eines ruhen­den Kon­tos bei Ihrer Bank lau­tet „keine Trans­ak­tio­nen seit 24 Mona­ten“ – was nicht nur das maschi­nelle Lern­mo­dell über­flüs­sig macht, son­dern auch höchst unprak­ti­ka­bel ist: Wie soll man einen Kun­den behal­ten, der seit 23 Mona­ten keine Trans­ak­tio­nen getä­tigt hat?

Sie kon­zen­trie­ren sich auf die frü­he­ren Pha­sen des Kun­den­le­bens­zy­klus und beschlie­ßen, die „neue Inak­ti­vi­tät“ des Kun­den vor­her­zu­sa­gen, d. h., dass der Kunde im lau­fen­den Monat keine Trans­ak­tio­nen im Ver­gleich zum vor­an­ge­gan­ge­nen Monat tätigt. Sie stel­len jedoch fest, dass viele Kun­den die Bank nur spär­lich nut­zen – viel­leicht haben sie nur ein oder zwei Pro­dukte, mit denen sie nicht regel­mä­ßig inter­agie­ren. Ihr Modell ist über­wäl­ti­gend, aber diese wenig akti­ven Kun­den sind nicht die Art von Kun­den, die das Unter­neh­men an sich bin­den möchte.

Schließ­lich erken­nen Sie, dass Sie ein hand­lungs­fä­hi­ge­res Ziel benö­ti­gen, und kon­zen­trie­ren sich auf „Dis­en­ga­ge­ment“. Sie defi­nie­ren dies als einen Kun­den, der ein kon­stant hohes Akti­vi­täts­ni­veau auf­weist, gefolgt von einem kon­stant nied­ri­gen Akti­vi­täts­ni­veau. So defi­niert, stellt Ihr Ziel ein Kun­den­ver­hal­ten dar, das zeit­ge­bun­den und umsetz­bar ist.

Damit ein Pro­jekt zum maschi­nel­len Ler­nen erfolg­reich ist, muss man ein kla­res Ver­ständ­nis des Kun­den­ver­hal­tens haben, das durch die Ziel­per­son reprä­sen­tiert wird, und wie es mit den Geschäfts­zie­len übereinstimmt.

2 – Umgang mit Ungleichgewicht

Das Leben ist, ähn­lich wie die Daten in der rea­len Welt, von Natur aus unaus­ge­wo­gen – es ist also sehr unwahr­schein­lich, dass Sie jemals an einem Geschäfts­pro­blem arbei­ten wer­den, des­sen Daten aus­ge­wo­gen sind. In mei­nen Jah­ren in der Daten­wis­sen­schaft bin ich tat­säch­lich noch nie auf einen rea­len Daten­satz für maschi­nel­les Ler­nen mit einer aus­ge­wo­ge­nen Ver­tei­lung des Ziels gesto­ßen. Nicht ein­mal annä­hernd.
Das bedeu­tet, dass man wis­sen muss, wie man mit – manch­mal extrem – unaus­ge­wo­ge­nen Daten umgeht:

Unders­am­pling: Ent­fer­nen von zufäl­lig aus­ge­wähl­ten Stich­pro­ben inner­halb der Mehr­heits­klasse. Dies bedeu­tet zwar einen Infor­ma­ti­ons­ver­lust, ist aber eine prak­ti­ka­ble Option, wenn es um umfang­rei­che Daten­sätze geht. Es ist wich­tig zu beach­ten, dass ein per­fekt aus­ge­wo­ge­nes 50/50-Ver­hält­nis nicht immer not­wen­dig ist. Ver­hält­nisse wie 60/40, 75/25 oder 80/20 kön­nen sich als ebenso effek­tiv oder sogar noch effek­ti­ver erwei­sen und bie­ten einen guten Kom­pro­miss zwi­schen der Erhal­tung des Daten­vo­lu­mens und der Abschwä­chung der Aus­wir­kun­gen von Ungleichgewichten.

Overs­am­pling: Dupli­zie­ren von Stich­pro­ben der Min­der­hei­ten­klasse oder voll­stän­dige Erstel­lung neuer syn­the­ti­scher (auch gefälsch­ter!) Daten­punkte, wenn Sie z. B. SMOTE ver­wen­den. Mit die­ser Tech­nik wer­den die begrenz­ten vor­han­de­nen Infor­ma­tio­nen in einem Daten­satz über­be­wer­tet. Ich per­sön­lich habe Vor­be­halte, mich stark auf syn­the­ti­sche Daten zu ver­las­sen. Wenn ich die Wahl habe, emp­fehle ich, in den Erwerb authen­ti­sche­rer Stich­pro­ben zu inves­tie­ren, um die Reprä­sen­ta­ti­vi­tät des Daten­sat­zes zu erhöhen.

Nichts tun: Die Ent­schei­dung, nichts zu tun, ist eine legi­time Option, wenn es um unaus­ge­wo­gene Daten­sätze geht. Dabei wird bewer­tet, ob der Algo­rith­mus rele­vante Infor­ma­tio­nen aus­rei­chend erfas­sen kann, ohne spe­zi­elle Stich­pro­ben­ver­fah­ren anzu­wen­den. Kann der Algo­rith­mus aus der vor­han­de­nen Daten­ver­tei­lung lernen?

3 – Tests müs­sen rea­li­täts­nah sein

Jeder Data Sci­en­tist weiß, wie wich­tig es ist, unge­se­hene (Test-)Daten zu behal­ten, um die Leis­tung eines maschi­nel­len Lern­mo­dells unter rea­len Bedin­gun­gen zu bewer­ten.
Über­ra­schen­der­weise habe ich gese­hen, dass sowohl Mas­ter­stu­den­ten als auch ope­ra­tiv tätige Daten­wis­sen­schaft­ler einen kri­ti­schen Feh­ler bege­hen, indem sie ihre Daten neu aus­ba­lan­cie­ren, bevor sie in Trai­nings- und Test­da­ten auf­ge­teilt wer­den. Dies führt zu unrea­lis­ti­schen Test­da­ten und ver­zerr­ten Leistungsbewertungen.

Der Test­da­ten­satz muss unan­ge­tas­tet blei­ben – er sollte die ursprüng­li­che Ver­tei­lung des Ziels in sei­nen Daten beibehalten.

Auf diese Weise wird sicher­ge­stellt, dass das Modell anhand einer reprä­sen­ta­ti­ven Stich­probe bewer­tet wird, die die rea­len Sze­na­rien wider­spie­gelt, auf die es tref­fen wird.

Die Methode „Ein letz­ter Trai­nings­zy­klus“:
In eini­gen Sze­na­rien, in denen die Daten­menge begrenzt ist, besteht eine mög­li­che Stra­te­gie darin, am Ende des Modell­bil­dungs­pro­zes­ses einen letz­ten Trai­nings­zy­klus hin­zu­zu­fü­gen.
Wenn die Ite­ra­tio­nen des Fea­ture-Engi­nee­rings und der Para­me­ter­ab­stim­mung abge­schlos­sen sind und das Modell so gut wie mög­lich ist (gemes­sen an den Test­da­ten), beinhal­tet diese Methode einen zusätz­li­chen Trai­nings­zy­klus, bei dem die Trai­nings- und Test­da­ten kom­bi­niert werden.

Das Kon­zept hin­ter die­sem Ansatz besteht darin, dem Algo­rith­mus einen letz­ten Leis­tungs­schub zu geben, indem er einem etwas grö­ße­ren Daten­satz aus­ge­setzt wird. Es wird davon aus­ge­gan­gen, dass die­ses zusätz­li­che Trai­ning die Fähig­kei­ten des Modells ver­bes­sert, auch wenn die genaue Ver­bes­se­rung unbe­kannt bleibt.

Ich per­sön­lich habe diese Methode nicht ver­wen­det. Das liegt daran, dass ich es vor­ziehe, bekannte Leis­tungs­kenn­zah­len für das End­pro­dukt zu haben.

4 – Ver­wen­den Sie aus­sa­ge­kräf­tige Leistungsindikatoren

Da sie für die Prä­va­lenz der Klas­sen nicht emp­find­lich sind, sind Genau­ig­keit, ROC-Kurve und Flä­che unter der ROC-Kurve für Modelle mit unaus­ge­wo­ge­nen Klas­sen unge­eig­net. (Hier fin­den Sie einige Hin­ter­grund­in­for­ma­tio­nen zu Leistungskennzahlen).

In rea­len Vor­her­sa­ge­sze­na­rien, wie in den obi­gen Bei­spie­len aus dem Ein­zel­han­del und dem Bank­we­sen, wird das inter­es­sie­rende Ver­hal­ten häu­fig durch die Min­der­heits­klasse reprä­sen­tiert. In Anbe­tracht des Ziels, einen klei­nen Teil der Kun­den inner­halb des brei­te­ren Kun­den­stamms zu iden­ti­fi­zie­ren, ist es von Inter­esse, wie gut das Modell die ech­ten Posi­ti­ven iden­ti­fi­ziert – und nicht so sehr, wie gut das Modell die ech­ten Nega­ti­ven identifiziert.

In einem Mar­ke­ting­um­feld ver­sucht man oft, die Prä­zi­sion zu opti­mie­ren – wie qua­li­fi­ziert ist die Ziel­gruppe, die aus dem Modell her­vor­geht -, wes­halb Prä­zi­sion und Bereich unter der Prä­zi­si­ons- und Recall-Kurve die Metri­ken der Wahl sind.

Dar­über hin­aus kann die Prä­zi­sion in einer geschäfts­freund­li­chen Art und Weise for­mu­liert wer­den, um das Ver­ständ­nis der Stake­hol­der zu ver­bes­sern. Neh­men wir ein Bei­spiel mit einer Genau­ig­keit von 15 % für eine Ziel­gruppe von tau­send Kun­den:
„Die Ziel­gruppe des Modells von 1.000 Kun­den wird vor­aus­sicht­lich 150 Käufe her­vor­brin­gen, ver­gli­chen mit nur 5 Käu­fen, wenn die Ziel­gruppe zufäl­lig aus­ge­wählt wird.“

5 – Die Bedeu­tung von Scores

In einem binä­ren Klas­si­fi­zie­rungs­kon­text wer­den ein­wer­tige Metri­ken wie Pre­cis­ion in der Regel auf der Grund­lage eines Stan­dard­grenz­werts von 0,5″ berechnet.

  • Kun­den mit einer Vor­her­sage (Punkt­zahl) < 0,5 wer­den als „nega­tiv“ ein­ge­stuft, wäh­rend Kun­den mit einer Vor­her­sage von 0,5 oder mehr als „posi­tiv“ ein­ge­stuft werden.

Die Ver­wen­dung die­ses Stan­dard­werts wirft jedoch zwei Pro­bleme auf:

Pro­blem 1: Der Stan­dard­wert ist für unaus­ge­wo­gene Daten­sätze nicht aus­sa­ge­kräf­tig
Unaus­ge­wo­gene Daten­sätze füh­ren zu unaus­ge­wo­ge­nen Ergeb­nis­sen. Die Ver­tei­lung der vor­her­ge­sag­ten Werte wird nicht einer Nor­mal­ver­tei­lung mit einem Mit­tel­wert von 0,5 fol­gen. Die Ver­wen­dung des Stan­dard-Cut-Offs kann zu sehr klei­nen oder sehr gro­ßen Grup­pen von nega­ti­ven und posi­ti­ven Ergeb­nis­sen führen.

Pro­blem 2: Man­gelnde Kon­trolle über die Anpas­sung der Modell­aus­ga­ben
Wenn man sich auf die „posi­tive“ Gruppe – das qua­li­fi­zierte Publi­kum – kon­zen­triert, ist es wich­tig, die Größe und die Eigen­schaf­ten des Publi­kums fle­xi­bel steu­ern zu können:

  • Wenn das Unter­neh­men eine teure Aktion für die Ziel­gruppe plant (z. B. ein kos­ten­lo­ses Pro­dukt für jeman­den, der kurz vor dem Wech­sel steht), könnte der Schwer­punkt auf einer hohen Prä­zi­sion lie­gen (=hoher Cut-off, kleine und hoch­qua­li­fi­zierte Zielgruppe).
  • Wenn ande­rer­seits die Kos­ten für ein Ver­säum­nis beträcht­lich sind (z. B. bei einem Krebs­er­ken­nungs­mo­dell), könnte sich die Prio­ri­tät auf eine hohe Auf­find­bar­keit ver­la­gern (=nied­ri­ger Cut-off, große und weni­ger qua­li­fi­zierte Zielgruppe).

Ich ziehe es vor, binäre Klas­si­fi­zie­rungs­mo­delle als Ran­king-Tools zu betrach­ten. Anstatt strenge Grup­pen von Posi­ti­ven und Nega­ti­ven zuzu­wei­sen, ord­net das Modell ein­fach eine Liste von Kun­den auf der Grund­lage ihrer Wahr­schein­lich­keit, ein bestimm­tes Ver­hal­ten zu zei­gen. Es liegt dann in der Ver­ant­wor­tung des Daten­wis­sen­schaft­lers, den geeig­ne­ten Grenz­wert zu bestim­men und dabei ein Gleich­ge­wicht zwi­schen der Größe der qua­li­fi­zier­ten Ziel­gruppe und der pro­gnos­ti­zier­ten Leis­tung herzustellen.

Es ist die Auf­gabe des Data Sci­en­tist, die Größe der qua­li­fi­zier­ten Ziel­gruppe ent­spre­chend dem Geschäfts­pro­blem zu bestim­men. Bild des Autors.

Geschäfts­in­ter­es­sen­ten müs­sen keine Scores sehen
„0,3 ist eine ziem­lich nied­rige Punkt­zahl“ – das kann sein, muss aber nicht sein! Bei unaus­ge­wo­ge­nen Daten­sät­zen kann ein Kunde mit einem Wert von 0,3 zu den bes­ten Pro­gno­sen gehören.

Die Inter­es­sen­ver­tre­ter der Unter­neh­men wer­den sich an den Punkt­wer­ten ori­en­tie­ren, ohne das Gesamt­bild zu sehen.

In Sze­na­rien mit meh­re­ren Model­len, die unter­schied­li­che Ver­hal­tens­wei­sen vor­her­sa­gen (z. B. Kauf von T‑Shirts, Hosen, Jacken, Hand­ta­schen), kann der Ver­gleich von Model­len auf der Grund­lage von Roh­wer­ten irre­füh­rend sein. Ein Wert von 0,3 könnte für das Hosen­mo­dell als nied­rig, für das Hand­ta­schen­mo­dell jedoch als hoch ange­se­hen werden.

Eine wirk­same Stra­te­gie ist die Ver­wen­dung von Rän­gen oder Dezi­len, anstatt die Punkt­zah­len mit den Betei­lig­ten zu tei­len. Es ist zum Bei­spiel hilf­reich, Ergeb­nisse wie folgt zu prä­sen­tie­ren:
„Hier sind die 1000 Kun­den, die am ehes­ten ein Pro­dukt kau­fen wür­den. Unser Test zeigt, dass 15 % die­ser Gruppe einen Kauf täti­gen wer­den, ver­gli­chen mit 5 % bei einer zufäl­li­gen Aus­wahl.
Die­ser Ansatz ermög­licht ein kla­re­res Ver­ständ­nis der Leis­tung ver­schie­de­ner Modelle, ohne die Mehr­deu­tig­keit, die mit Roh­wer­ten ver­bun­den ist.

Bei Geschäfts­an­wen­dun­gen, bei denen die Größe der Ziel­gruppe im Vor­aus fest­ge­legt ist, z. B. bei der Aus­wahl der 5 Mil­lio­nen Kun­den, die am wahr­schein­lichs­ten jede Woche XYZ kau­fen, sind die indi­vi­du­el­len Ergeb­nisse weni­ger wich­tig. Das Haupt­au­gen­merk liegt auf der Aus­wahl der bes­ten 5 Mil­lio­nen Kun­den, unab­hän­gig davon, wie hoch der Wert ihrer Scores ist.

Schluss­fol­ge­rung

  • Bei der Aus­wahl des rich­ti­gen Ziels geht es nicht um einen Daten­punkt, son­dern um die Erfas­sung von umsetz­ba­rem Verhalten.
  • Der Auf­bau von Model­len für maschi­nel­les Ler­nen auf unaus­ge­wo­ge­nen Daten erfor­dert den rich­ti­gen Mess­rah­men und durch­dachte Kom­mu­ni­ka­ti­ons­stra­te­gien für die Unternehmensbeteiligten.

Ich hoffe, dass dies sinn­voll und hilf­reich ist – was habe ich über­se­hen? Für die erfah­re­nen Leser: Was sind wei­tere wich­tige Aspekte der prä­dik­ti­ven Model­lie­rung, die sich in der Pra­xis als wert­voll erwie­sen haben, aber viel­leicht in der for­ma­len Aus­bil­dung nicht behan­delt wurden?

Quelle: medium.com