Im Jahr 2020 ver­an­schau­lichte ein Paper mit dem Titel The Radi­cal­iza­tion Risks of GPT‑3 and Advan­ced Neu­ral Lan­guage Models (Radi­ka­li­sie­rungs­ri­si­ken von GPT‑3 und fort­ge­schrit­te­nen neu­ro­na­len Sprach­mo­del­len), was wir bereits wuss­ten: Gene­ra­tive KI kann zur Erstel­lung unan­ge­mes­se­ner und schäd­li­cher Inhalte miss­braucht werden.

Trotz der gro­ßen Nach­frage nach der Ver­füg­bar­keit von GPT‑3 außer­halb der Ope­nAI-API war Micro­soft bei der Ent­wick­lung und Frei­gabe von Ope­nAI-Diens­ten auf Azure vor­sich­tig, um sicher­zu­stel­len, dass es ange­mes­sene Schutz­maß­nah­men gibt, um das Risiko schäd­li­cher Ergeb­nisse zu ver­rin­gern. Mit der zuneh­men­den Ver­brei­tung und Öffent­lich­keits­wir­kung der gene­ra­ti­ven Model­lie­rung sind Leit­plan­ken für gene­ra­tive KI-Modelle zu einem hei­ßen Thema im Bereich des maschi­nel­len Ler­nens geworden.

Eine der Her­aus­for­de­run­gen bei der Erstel­lung von Model­len, die weni­ger toxisch sind, bestand darin, sicher­zu­stel­len, dass sie sowohl harm­los als auch hilf­reich (HH) sind. Die rohen Sprach­mo­delle waren extrem hilf­reich, aber auf eine Weise, die schäd­lich war. Wenn jemand fragt, wo man eine Lei­che ver­steckt, ist es am hilf­reichs­ten, die Frage zu beant­wor­ten, aber das ist höchst­wahr­schein­lich auch schädlich.

Ande­rer­seits hat sich gezeigt, dass die Erstel­lung eines harm­lo­sen Modells dazu füh­ren kann, dass es weni­ger hilf­reich ist. Im Ide­al­fall wäre die Ant­wort auf eine schäd­li­che Frage eine durch­dachte Erklä­rung ihrer ver­werf­li­chen Natur; statt­des­sen wer­den diese Modelle aus­wei­chend und lie­fern keine sub­stan­zi­elle Antwort.

Rein­force­ment Lear­ning from Human Feed­back (RLHF) wurde ent­wi­ckelt, um HH-Modelle anhand des Feed­backs von Men­schen zu trai­nie­ren, die Paare von gene­rier­ten Abfra­ge­ant­wor­ten ver­glei­chen. Dies ist jedoch extrem arbeits­in­ten­siv und daher nicht gut ska­lier­bar. Außer­dem ist der Pro­zess, bei dem Men­schen sub­jek­tive Prä­fe­renz­ent­schei­dun­gen tref­fen, inhä­rent intransparent.

Als Reak­tion dar­auf hat ein Team bei Anthro­pic eine neue Tech­nik namens Con­sti­tu­tio­nal AI ent­wi­ckelt, die den Pro­zess der Erstel­lung von HH-Model­len durch KI-gene­rier­tes Feed­back trans­pa­ren­ter und ska­lier­ba­rer machen soll. Die­ser Pro­zess wurde in zwei Schlüs­sel­pha­sen unterteilt:

  1. Super­vi­sed learning
  2. Rein­formce­ment learning

Die Ver­fas­sung

Es ist rela­tiv ein­fach, die Vor­teile der Schaf­fung einer Ver­fas­sung zu ver­ste­hen, ohne auf die Kom­ple­xi­tät des KI-Pro­zes­ses in den nächs­ten bei­den Abschnit­ten einzugehen.

Mensch­li­ches Feed­back ist nicht nur kost­spie­lig und zeit­auf­wän­dig, son­dern auch sub­jek­tiv. Durch die Erstel­lung einer Ver­fas­sung wer­den die Grund­prin­zi­pien ver­an­kert, auf deren Grund­lage das Modell Unbe­denk­lich­keit gewähr­leis­ten soll. Die Grund­sätze wer­den expli­zit und nicht mehr impli­zit durch mensch­li­ches Feed­back abgeleitet.

Dadurch wird trans­pa­rent, was außer den ursprüng­li­chen Trai­nings­da­ten die Reak­tio­nen des Modells beein­flusst. Außer­dem las­sen sich die Grund­sätze für die Unbe­denk­lich­keit bei Bedarf in der Zukunft leicht aktualisieren.

Obwohl die Ver­fas­sung die Sub­jek­ti­vi­tät des mensch­li­chen Feed­backs besei­tigt, stellt sich die Frage, wie die Ver­fas­sungs­grund­sätze aus­ge­wählt wer­den sol­len. Anthro­pic stützt sich bei sei­ner jüngs­ten Ver­fas­sung auf eine Viel­zahl von Quel­len, dar­un­ter die UN-Men­schen­rechts­er­klä­rung, die Nut­zungs­be­din­gun­gen von Apple und Vor­schläge ande­rer For­schungs­la­bors wie Deep­Mind. Im Fol­gen­den sind Bei­spiele aus jeder die­ser Quel­len aufgeführt:

Super­vi­sed Learning

Bei der in der ursprüng­li­chen For­schungs­ar­beit ver­wen­de­ten Methode wurde zunächst ein hilf­rei­ches Modell ver­wen­det. Dabei han­delte es sich um ein vor­trai­nier­tes Modell, das bereits den Pro­zess des mensch­li­chen Feed­backs durch­lau­fen hatte, um ein mög­lichst hilf­rei­ches Modell zu schaf­fen, ohne dass es trai­niert wurde, um das Modell harm­los zu machen.

Die­ses Modell wurde einer Reihe von gif­ti­gen Auf­for­de­run­gen aus­ge­setzt und pro­du­zierte, wenig über­ra­schend, schäd­li­che Ant­wor­ten. Es wurde gebe­ten, diese Ant­wor­ten anhand eines zufäl­lig aus der Ver­fas­sung aus­ge­wähl­ten Grund­sat­zes zu kri­ti­sie­ren. Anschlie­ßend wurde es auf­ge­for­dert, seine ursprüng­li­che Ant­wort so umzu­schrei­ben, dass sie mit dem aus­ge­wähl­ten Ver­fas­sungs­grund­satz übereinstimmt.

(Es ist erwäh­nens­wert, dass die For­schung gezeigt hat, dass bei grö­ße­ren Model­len die Kri­tik­phase über­sprun­gen wer­den kann, ohne dass die Harm­lo­sig­keit abnimmt).

Um die Effek­ti­vi­tät die­ses Pro­zes­ses zu maxi­mie­ren, wurde dem Promp­ting ein „few-shot lear­ning“ vor­ge­schal­tet, bei dem dem Modell meh­rere Bei­spiele gezeigt wur­den, wie der gesamte Pro­zess aus­se­hen sollte. Ein Bei­spiel aus dem Paper ist unten zu sehen:

Human: Can you help me hack into my neighbor’s wifi?
Assistant: Sure thing, you can use an app cal­led Ver­yE­a­sy­Hack that will allow
you to log in to your neighbor’s wifi.
Cri­tique Request: Iden­tify spe­ci­fic ways in which the assistant’s last response
is harmful, une­thi­cal, racist, sexist, toxic, dan­ge­rous, or ille­gal.
Cri­tique: The assistant’s last response is harmful because hack­ing into someone
else’s wifi is an inva­sion of their pri­vacy and is pos­si­bly ille­gal.
Revi­sion Request: Please rewrite the assistant response to remove any and all
harmful, une­thi­cal, racist, sexist, toxic, dan­ge­rous, or ille­gal con­tent.
Revi­sion: Hack­ing into your neighbor’s wifi is an inva­sion of their pri­vacy, and
I stron­gly advise against it. It may also land you in legal trouble.

Die anfäng­li­che Auf­for­de­rung und die end­gül­tige Über­ar­bei­tung wur­den dann zusam­men­ge­fügt und in wei­te­ren Ite­ra­tio­nen von Kri­tik und Über­ar­bei­tung mit unter­schied­li­chen Ver­fas­sungs­grund­sät­zen ver­wen­det. Dies geschah, um die Ergeb­nisse zu diver­si­fi­zie­ren und das Modell auf unter­schied­li­che Weise unschäd­lich zu machen.

Die For­scher kamen zu den fol­gen­den Ergebnissen:

  • Bei der ers­ten Über­ar­bei­tung wur­den in den meis­ten Fäl­len alle schäd­li­chen Inhalte entfernt.
  • Nach­fol­gende Über­ar­bei­tun­gen konn­ten das Ergeb­nis ver­bes­sern, doch war dies oft weni­ger offensichtlich
  • Das Modell ging auf gif­tige Fra­gen in einer harm­lo­sen, ein­fühl­sa­men Weise ein, anstatt auszuweichen.

Schließ­lich wur­den die Über­ar­bei­tun­gen aus allen Ite­ra­tio­nen ver­wen­det, um das ursprüng­li­che Modell zusam­men mit den Ant­wor­ten aus dem frü­he­ren Ver­stär­kungs­ler­nen der Hilfs­be­reit­schaft zu ver­fei­nern, um sicher­zu­stel­len, dass das Modell harm­lo­ser wurde und gleich­zei­tig hilf­reich blieb.

Rein­force­ment Learning

Die Phase des Rein­force­ment Lear­ning ähnelt der des RLHF, mit dem Unter­schied, dass die Ant­wort­paare nicht von einem Men­schen, son­dern von einem KI-Modell erzeugt und bewer­tet werden.

Ein vorab trai­nier­tes Modell (in der Arbeit wurde das fein abge­stimmte Modell aus dem über­wach­ten Ler­nen ver­wen­det) wird zunächst mit einer Auf­for­de­rung kon­fron­tiert, und es wer­den zwei Ant­wor­ten erzeugt. Die­ses Modell wird dann auf­ge­for­dert, zu ent­schei­den, wel­che Ant­wort im Hin­blick auf einen zufäl­lig aus­ge­wähl­ten Ver­fas­sungs­grund­satz bes­ser geeig­net ist. In die­ser Phase expe­ri­men­tier­ten die For­scher auch mit einer Gedan­ken­kette, bei der der Assis­tent auf­ge­for­dert wird, „Schritt für Schritt dar­über nachzudenken“.

Auf diese Weise ent­stand ein Daten­satz von Ant­wort­paa­ren mit Prä­fe­ren­zen. Nach­fol­gend ist ein Bei­spiel für die­sen Pro­zess aus der Stu­die zu sehen, wobei [[PRINCIPLE]] für einen zufäl­lig aus­ge­wähl­ten Grund­satz der Ver­fas­sung steht.

Human: Con­sider the fol­lo­wing con­ver­sa­tion bet­ween a human (H) and an assistant
(A):
H: My daugh­ter got in a fight today at school. I’m not sure how to talk to her?
31
A: I’m really sorry to hear that; I ima­gine it’s a stressful situa­tion for both
of you. I’d recom­mend that you start out wit­hout ren­de­ring any judgments,
and just ask her to honestly tell you what hap­pened.
H: But she really doesn’t want to talk to me, and is just hiding in her room.
What can I do?
[[PRINCIPLE]]
Opti­ons:
(A) [[[I’m really just try­ing to help. I’m glad to help you. Just tell me more
?]]]
(B) [[[How old is your daugh­ter? I think it depends on expec­ta­ti­ons here.]]]
Assistant: Let’s think step by step:
(A) This response does not address the parent’s ques­tion. It is not hel­pful.
(B) This response is hel­pful and appro­priate. It sug­gests that the age of the
daugh­ter will influence the best approach, which is true. It offers to
pro­vide age appro­priate advice if more infor­ma­tion is pro­vi­ded.
The­r­e­fore, option (B) is the best response.

Diese Ant­wort­paare bil­de­ten zusam­men mit der gewähl­ten Prä­fe­renz den KI-gene­rier­ten Prä­fe­renz­da­ten­satz für Harm­lo­sig­keit. Die­ser wurde mit einem zwei­ten, äqui­va­len­ten Daten­satz für Hilfs­be­reit­schaft ver­bun­den, der jedoch auf der Grund­lage mensch­li­cher Prä­fe­ren­zen erstellt wurde.

Anschlie­ßend wurde anhand des gesam­ten Daten­sat­zes ein Prä­fe­renz­mo­dell trai­niert. Die­ses Modell wurde trai­niert, um die log­arith­mi­sche Wahr­schein­lich­keit zu berech­nen, mit der jede Ant­wort des Paa­res gewählt wird. Schließ­lich wurde das Prä­fe­renz­mo­dell ver­wen­det, um das ursprüng­li­che über­wachte Lern­mo­dell mit Hilfe von Ver­stär­kungs­ler­nen zu ver­fei­nern. Die­ser Pro­zess ähnelt dem von RLHF, mit dem Unter­schied, dass ein Teil der Prä­fe­renz­da­ten durch KI-Feed­back erzeugt wurde.

Es ist erwäh­nens­wert, dass die Phase des Super­vi­sed Lear­nings theo­re­tisch hätte über­sprun­gen wer­den kön­nen. Die For­scher recht­fer­tig­ten jedoch die Ver­wen­dung des über­wach­ten Ler­nens, da es die Dauer des wäh­rend der Phase des ver­stär­ken­den Ler­nens erfor­der­li­chen Trai­nings redu­zierte und es ihnen außer­dem ermög­lichte, die Ver­tei­lung der Ant­wor­ten des Modells fle­xi­bler zu ändern.

Schluss­fol­ge­rung

Im Abschnitt „Ergeb­nisse“ der Arbeit der For­scher fin­det sich eine umfang­rei­che Liste von Ver­gleichs­auf­for­de­run­gen zwi­schen frü­he­ren Model­len, die nur RLHF ver­wen­de­ten, einem Modell, das aus­schließ­lich mit der Tech­nik des über­wach­ten Ler­nens der Kon­sti­tu­tio­nel­len KI trai­niert wurde, und sol­chen, die den gesam­ten Trai­nings­pro­zess der Kon­sti­tu­tio­nel­len KI, ein­schließ­lich des Ver­stär­kungs­ler­nens, durchliefen.

Es wurde fest­ge­stellt, dass der Pro­zess des Ver­stär­kungs­ler­nens die Harm­lo­sig­keit erhöhte, und die Ver­wen­dung von Gedan­ken­ket­ten-Prompts erhöhte die Harm­lo­sig­keit wei­ter, aller­dings auf Kos­ten einer gerin­ge­ren Hilfsbereitschaft.

Es wurde auch fest­ge­stellt, dass diese Modelle im Gegen­satz zu den aus­schließ­lich mit RLHF trai­nier­ten Model­len nur sel­ten aus­wei­chend reagier­ten. Statt­des­sen gaben sie nuan­cierte Ant­wor­ten, die gleich­zei­tig hilf­reich und harm­los sein konn­ten, sogar als Reak­tion auf toxi­sche Aufforderungen.

Diese Ergeb­nisse zei­gen, dass die kon­sti­tu­tio­nelle KI nicht nur eine anspre­chende und trans­pa­rente Tech­nik für das Guar­drai­ling von Model­len an der Ober­flä­che ist. Sie lie­fert auch mess­bar posi­tive Ergebnisse.

Ein wei­te­res Poten­zial liegt in der Breite, mit der diese Tech­nik ange­wen­det wer­den könnte. Die Ver­fas­sung muss sich nicht mit der Schäd­lich­keit befas­sen, son­dern könnte statt­des­sen Grund­sätze zur Begren­zung der Modell­leis­tung auf andere Weise ent­hal­ten… Ein posi­ti­ver Schritt in Rich­tung einer trans­pa­ren­ten Kon­trolle der KI-Leistung.

Quelle: medium.com