Rein­forced Lear­ning (RL) ist eine der drei grund­le­gen­den Ansätze im Bereich des maschi­nel­len Ler­nens, neben dem Super­vi­sed Lear­ning (SL) und dem Unsu­per­vi­sed Lear­ning (UL). Beim Super­vi­sed Lear­ning ist für jedes ein­zelne Trai­nings­bei­spiel das gewünschte, kor­rekte Ergeb­nis bekannt und das Modell wird damit trai­niert, diese Ergeb­nisse zu repro­du­zie­ren. Unsu­per­vi­sed Lear­ning wird vor allem ein­ge­setzt, um Daten zu grup­pie­ren oder Dimen­si­ons­re­duk­tion durch­zu­füh­ren. Beim Rein­forced Lear­ning hin­ge­gen wird das Modell dar­auf trai­niert, aus einer unter Umstän­den sehr gro­ßen Zahl von Ent­schei­dungs­op­tio­nen die­je­nige zu wäh­len, wel­che spä­ter den größ­ten „Nut­zen“ erzielt.

Reinforcement learning – Ein Überblick Bild1
Abbil­dung 1 Rein­forced Learning

Die Kern­idee der unter­schied­li­chen Tech­ni­ken aus dem Bereich des Rein­forced Lear­nings ist es, das mensch­li­che Ler­nen nach­zu­bauen, so wie neu­ro­nale Netze von Struk­tu­ren aus der Bio­lo­gie inspi­riert sind.  Dabei wird die Inter­ak­tion des Agen­ten mit sei­ner Umwelt als Mar­kov-Ent­schei­dungs­pro­zess auf­ge­fasst. Zu jedem Zeit­schritt befin­det sich die „Umwelt“ in einem Zustand Z. Auf die­sen Zustand kann der Agent mit einer von N mög­li­chen Aktio­nen reagie­ren. Je nach erreich­tem Zustand Z+1 wird der Agent dann für die Aktion belohnt oder nicht.

Ein kon­kre­tes Bei­spiel ist das Com­pu­ter­spiel Snake. Hier besteht die Umwelt aus einem recht­ecki­gen Feld, in dem sich die Schlange und Beloh­nun­gen befin­den. Die ver­schie­de­nen Zustände Z bestehen dabei aus den mög­li­chen Posi­tio­nen der Schlange und der Beloh­nung im Recht­eck. Frisst die Schlange in einem Zustand Z die Beloh­nung, wird durch den posi­ti­ven Fol­ge­zu­stand Z+1 die Hand­lung belohnt. Auf­grund der gro­ßen Zahl von mög­li­chen Zustän­den wird jedoch in vie­len Zustän­den eine Aktion nicht unmit­tel­bar belohnt. Bewegt sich die Schlange bei­spiels­weise in Rich­tung einer Beloh­nung, ist dies zwar eine nütz­li­che Aktion, führt aber nicht unmit­tel­bar zur Beloh­nung. Diese erfolgt erst, wenn die Schlange das Ziel tat­säch­lich erreicht hat.

Im Bereich des Rein­forced Lear­nings wird daher häu­fig mit Ver­fah­ren gear­bei­tet, wel­che zusätz­lich die Nütz­lich­keit einer Aktion bewer­ten, das heißt wie hilf­reich die kon­krete Aktion ist, in einem spä­te­ren Zeit­schritt eine Beloh­nung zu erhal­ten. Eine sol­che Bewer­tungs­funk­tion kann bei­spiels­weise ein neu­ro­na­les Netz sein, das die zu erwar­tende zukünf­tige Beloh­nung für eine Aktion lau­fend berech­net. Der Ein­satz von neu­ro­na­len Net­zen im Bereich des Rein­forced Lear­nings wird auch Deep Rein­forced Lear­ning genannt. Ein pro­mi­nen­tes Bei­spiel für eine erfolg­rei­che Anwen­dung ist Alpha­Go­Zero von Goo­g­le­Deep­mind. Die­ses Sys­tem ist in der Lage, ohne Daten von mensch­li­chen Spie­lern selbst­ler­nend inner­halb von 40 Tagen ein höhe­res Spiel­ni­veau zu errei­chen als jeder mensch­li­che Spie­ler und als alle zuvor exis­tie­ren­den Programme.

Algo­rith­men

Eine wich­tige Klasse von Algo­rith­men basie­ren auf der Policy Gra­di­ent Methode. Die Kern­idee dahin­ter ist, den erreich­ten Fol­ge­zu­stand lau­fend zu eva­lu­ie­ren und die Beloh­nung für eine Aktion, die zum Errei­chen eines Zustan­des führte, dyna­misch anzu­pas­sen. Ein Bei­spiel dafür ist der von Goo­g­le­Deep­mind ent­wi­ckelte A3C Algo­rith­mus, wel­cher oft zum Lösen von Spie­len ver­wen­det wird.

Ein Pro­blem bei die­sem Grund­kon­zept ist, dass zufäl­li­ges Ler­nen dazu füh­ren kann, dass unge­wollte Lösungs­an­sätze favo­ri­siert wer­den. So könnte bei dem Snake Bei­spiel die Aktion „im Kreis dre­hen“ mit der Zeit attrak­ti­ver wer­den, da hier­durch die Wahr­schein­lich­keit zu ver­lie­ren mini­miert wird. Die­ses Pro­blem ist als Ali­gnment Pro­blem bekannt.

Ein Ansatz, um die­ses Pro­blem zu umge­hen, ist Reward Sha­ping. Die Idee ist hier­bei, meh­rere kleine „Zwi­schen-Beloh­nun­gen“ in die Auf­ga­ben­stel­lung mit zu inte­grie­ren, um poten­zi­ell schlech­tes Ver­hal­ten zu kanalisieren.

So könn­ten für Snake zusätz­li­che Beloh­nun­gen ver­ge­ben wer­den, die das Fort­be­we­gen in die glei­che Rich­tung begüns­ti­gen und damit Rich­tungs­wech­sel unat­trak­ti­ver machen. Dadurch wird der Trai­nings­auf­wand gegen­über zufäl­li­gem Trai­ning redu­ziert. Ein Nach­teil die­ser Methode ist, dass für jede Umge­bung und jedes Pro­blem die Beloh­nun­gen neu ange­passt wer­den müs­sen. Ein wei­te­rer Nach­teil besteht darin, dass durch die Bevor­zu­gung eini­ger weni­ger Hand­lun­gen bei fal­scher Dosie­rung der Beloh­nun­gen poten­zi­ell nütz­li­che Lern­pro­zesse blo­ckiert wer­den kön­nen. Bei Snake könnte zum Bei­spiel die Aktion „Fres­sen der Beloh­nung“ zusätz­lich favo­ri­siert wer­den, was dann dazu füh­ren könnte, dass der Agent auch dann eine Beloh­nung frisst, wenn im nächs­ten Schritt das Spiel durch Berüh­ren der Spiel­feld­be­gren­zung ver­lo­ren wird.

Eine Mög­lich­keit die lang­fris­tige Fokus­sie­rung des Agen­ten auf lokale Beloh­nun­gen zu umge­hen ist, statt des Zustan­des den Nut­zen einer Aktion zu bewer­ten. Dies ist bei Algo­rith­men der Klasse Tem­po­ral Dif­fe­rence Lear­ning (TD) gege­ben. Dazu besit­zen die Algo­rith­men eine state-value func­tion, wel­che berech­net, mit wel­cher mög­li­chen Beloh­nung eine Aktion ver­gü­tet wird. Die Funk­tion wird nach jeder Ite­ra­tion ange­passt, indem die tat­säch­li­che Beloh­nung betrach­tet wird. Aller­dings wird auf diese Weise das Ali­gnment Pro­blem noch nicht gelöst, da es wei­ter­hin mög­lich ist, dass die state-value func­tion auf einen geschlos­se­nen Kreis von Hand­lungs­ab­läu­fen opti­miert wird. Aus die­sem Grund wird bei TD Algo­rith­men als zusätz­li­che Stra­te­gie die Epsi­lon-Greedy Policy ange­wandt, wel­che Neu­gierde simu­liert. Hier­bei wird bei einem bestimm­ten Pro­zent­satz aller Hand­lun­gen nicht die opti­male Hand­lung aus­ge­führt, son­dern eine zufäl­lige. Auf das Snake-Bei­spiel bezo­gen könnte die Schlange zum Bei­spiel bei 5% aller Hand­lun­gen eine Rich­tungs­än­de­rung aus der Kreis­be­we­gung her­aus vor­neh­men und so nach eini­ger Zeit eine Beloh­nung fres­sen. Dies wie­derum ver­än­dert mit­tel­fris­tig die Werte der state-value func­tion dahin­ge­hend, dass die Kreis­be­we­gung unat­trak­ti­ver wird. Ein Bei­spiel für diese Klasse ist der SARSA Algo­rith­mus, der unter ande­rem erfolg­reich in Simu­la­tio­nen für die Kon­trolle von Ener­gie­sys­te­men und zur Erstel­lung von Gen Netz­wer­ken ein­ge­setzt wurde.

Anwen­dung

Eine erfolg­rei­che Anwen­dung von RL mit wirt­schaft­li­chem Hin­ter­grund wurde von Ent­wick­lern der Ali­baba Group beschrie­ben. Diese haben einen Deter­mi­ni­stic Policy Gra­di­ent Algo­rith­mus ent­wi­ckelt, mit wel­chem sich Pro­dukte in ihrer E‑Commerce Platt­form Tao­Bao intel­li­gent plat­zie­ren las­sen. Eige­nen Anga­ben zufolge hat der ent­wi­ckelte Algo­rith­mus bes­sere Ergeb­nisse gelie­fert, als Stan­dard­me­tho­den zur Pro­dukt­plat­zie­rung und konnte in der rea­len Anwen­dung in den USA zu einer Umsatz­stei­ge­rung von 30% beitragen.

Aus­blick

Die Bilanz von Rein­forced Lear­ning ist bis­her gemischt. Bis­her wird RL größ­ten­teils in Simu­la­tio­nen und für Spiele ein­ge­setzt. Dies liegt an den Pro­ble­men, die RL Tech­ni­ken beim Lösen von Auf­ga­ben in kom­ple­xen Umge­bun­gen haben. Hier gelingt es dem Agen­ten häu­fig nicht, die Beloh­nung bzw. den Nut­zen ein­zel­ner Hand­lun­gen lang­fris­tig rich­tig einzuschätzen.

Ein wei­te­rer Punkt ist, dass viele Auf­ga­ben, für die sich grund­sätz­lich ein Rein­forced Lear­ning Ansatz anbie­tet, momen­tan ein­fa­cher und bes­ser mit alter­na­ti­ven Metho­den gelöst wer­den kön­nen. Ein Bei­spiel dafür ist der zwei­bei­nige Robo­ter Atlas von Bos­ton Dyna­mics, wel­cher sich sicher auch durch unweg­sa­mes Ter­rain bewe­gen kann. Die­ser ver­wen­det kein Deep-RL, son­dern eine Kom­bi­na­tion aus ver­schie­de­nen ande­ren Metho­den wie bei­spiels­weise LQ-Reg­ler, um sich in sei­ner Umwelt zu bewegen.

Aller­dings könnte sich die Situa­tion in der Zukunft grund­le­gend ändern. Durch die all­ge­meine Art zu Ler­nen las­sen sich RL Metho­den von allen Machine Lear­ning Metho­den am ehes­ten als gene­relle künst­li­che Intel­li­genz ein­set­zen. Vor allem in der Robo­tik könn­ten Sys­teme geschaf­fen wer­den, die bes­ser als bis­her exis­tie­rende Lösun­gen mit wech­seln­den Bedin­gun­gen umge­hen kön­nen. In Pro­duk­ti­ons­an­la­gen bei­spiels­weise könnte sich hier­durch der Anpas­sungs­auf­wand für Robo­ter an neue Tätig­kei­ten oder eine geän­derte Umge­bung deut­lich reduzieren.