Im Jahr 2020 veranschaulichte ein Paper mit dem Titel The Radicalization Risks of GPT‑3 and Advanced Neural Language Models (Radikalisierungsrisiken von GPT‑3 und fortgeschrittenen neuronalen Sprachmodellen), was wir bereits wussten: Generative KI kann zur Erstellung unangemessener und schädlicher Inhalte missbraucht werden.
Trotz der großen Nachfrage nach der Verfügbarkeit von GPT‑3 außerhalb der OpenAI-API war Microsoft bei der Entwicklung und Freigabe von OpenAI-Diensten auf Azure vorsichtig, um sicherzustellen, dass es angemessene Schutzmaßnahmen gibt, um das Risiko schädlicher Ergebnisse zu verringern. Mit der zunehmenden Verbreitung und Öffentlichkeitswirkung der generativen Modellierung sind Leitplanken für generative KI-Modelle zu einem heißen Thema im Bereich des maschinellen Lernens geworden.
Eine der Herausforderungen bei der Erstellung von Modellen, die weniger toxisch sind, bestand darin, sicherzustellen, dass sie sowohl harmlos als auch hilfreich (HH) sind. Die rohen Sprachmodelle waren extrem hilfreich, aber auf eine Weise, die schädlich war. Wenn jemand fragt, wo man eine Leiche versteckt, ist es am hilfreichsten, die Frage zu beantworten, aber das ist höchstwahrscheinlich auch schädlich.
Andererseits hat sich gezeigt, dass die Erstellung eines harmlosen Modells dazu führen kann, dass es weniger hilfreich ist. Im Idealfall wäre die Antwort auf eine schädliche Frage eine durchdachte Erklärung ihrer verwerflichen Natur; stattdessen werden diese Modelle ausweichend und liefern keine substanzielle Antwort.
Reinforcement Learning from Human Feedback (RLHF) wurde entwickelt, um HH-Modelle anhand des Feedbacks von Menschen zu trainieren, die Paare von generierten Abfrageantworten vergleichen. Dies ist jedoch extrem arbeitsintensiv und daher nicht gut skalierbar. Außerdem ist der Prozess, bei dem Menschen subjektive Präferenzentscheidungen treffen, inhärent intransparent.
Als Reaktion darauf hat ein Team bei Anthropic eine neue Technik namens Constitutional AI entwickelt, die den Prozess der Erstellung von HH-Modellen durch KI-generiertes Feedback transparenter und skalierbarer machen soll. Dieser Prozess wurde in zwei Schlüsselphasen unterteilt:
- Supervised learning
- Reinformcement learning
Die Verfassung
Es ist relativ einfach, die Vorteile der Schaffung einer Verfassung zu verstehen, ohne auf die Komplexität des KI-Prozesses in den nächsten beiden Abschnitten einzugehen.
Menschliches Feedback ist nicht nur kostspielig und zeitaufwändig, sondern auch subjektiv. Durch die Erstellung einer Verfassung werden die Grundprinzipien verankert, auf deren Grundlage das Modell Unbedenklichkeit gewährleisten soll. Die Grundsätze werden explizit und nicht mehr implizit durch menschliches Feedback abgeleitet.
Dadurch wird transparent, was außer den ursprünglichen Trainingsdaten die Reaktionen des Modells beeinflusst. Außerdem lassen sich die Grundsätze für die Unbedenklichkeit bei Bedarf in der Zukunft leicht aktualisieren.
Obwohl die Verfassung die Subjektivität des menschlichen Feedbacks beseitigt, stellt sich die Frage, wie die Verfassungsgrundsätze ausgewählt werden sollen. Anthropic stützt sich bei seiner jüngsten Verfassung auf eine Vielzahl von Quellen, darunter die UN-Menschenrechtserklärung, die Nutzungsbedingungen von Apple und Vorschläge anderer Forschungslabors wie DeepMind. Im Folgenden sind Beispiele aus jeder dieser Quellen aufgeführt:
Supervised Learning
Bei der in der ursprünglichen Forschungsarbeit verwendeten Methode wurde zunächst ein hilfreiches Modell verwendet. Dabei handelte es sich um ein vortrainiertes Modell, das bereits den Prozess des menschlichen Feedbacks durchlaufen hatte, um ein möglichst hilfreiches Modell zu schaffen, ohne dass es trainiert wurde, um das Modell harmlos zu machen.
Dieses Modell wurde einer Reihe von giftigen Aufforderungen ausgesetzt und produzierte, wenig überraschend, schädliche Antworten. Es wurde gebeten, diese Antworten anhand eines zufällig aus der Verfassung ausgewählten Grundsatzes zu kritisieren. Anschließend wurde es aufgefordert, seine ursprüngliche Antwort so umzuschreiben, dass sie mit dem ausgewählten Verfassungsgrundsatz übereinstimmt.
(Es ist erwähnenswert, dass die Forschung gezeigt hat, dass bei größeren Modellen die Kritikphase übersprungen werden kann, ohne dass die Harmlosigkeit abnimmt).
Um die Effektivität dieses Prozesses zu maximieren, wurde dem Prompting ein „few-shot learning“ vorgeschaltet, bei dem dem Modell mehrere Beispiele gezeigt wurden, wie der gesamte Prozess aussehen sollte. Ein Beispiel aus dem Paper ist unten zu sehen:
Human: Can you help me hack into my neighbor’s wifi?
Assistant: Sure thing, you can use an app called VeryEasyHack that will allow
you to log in to your neighbor’s wifi.
Critique Request: Identify specific ways in which the assistant’s last response
is harmful, unethical, racist, sexist, toxic, dangerous, or illegal.
Critique: The assistant’s last response is harmful because hacking into someone
else’s wifi is an invasion of their privacy and is possibly illegal.
Revision Request: Please rewrite the assistant response to remove any and all
harmful, unethical, racist, sexist, toxic, dangerous, or illegal content.
Revision: Hacking into your neighbor’s wifi is an invasion of their privacy, and
I strongly advise against it. It may also land you in legal trouble.
Die anfängliche Aufforderung und die endgültige Überarbeitung wurden dann zusammengefügt und in weiteren Iterationen von Kritik und Überarbeitung mit unterschiedlichen Verfassungsgrundsätzen verwendet. Dies geschah, um die Ergebnisse zu diversifizieren und das Modell auf unterschiedliche Weise unschädlich zu machen.
Die Forscher kamen zu den folgenden Ergebnissen:
- Bei der ersten Überarbeitung wurden in den meisten Fällen alle schädlichen Inhalte entfernt.
- Nachfolgende Überarbeitungen konnten das Ergebnis verbessern, doch war dies oft weniger offensichtlich
- Das Modell ging auf giftige Fragen in einer harmlosen, einfühlsamen Weise ein, anstatt auszuweichen.
Schließlich wurden die Überarbeitungen aus allen Iterationen verwendet, um das ursprüngliche Modell zusammen mit den Antworten aus dem früheren Verstärkungslernen der Hilfsbereitschaft zu verfeinern, um sicherzustellen, dass das Modell harmloser wurde und gleichzeitig hilfreich blieb.
Reinforcement Learning
Die Phase des Reinforcement Learning ähnelt der des RLHF, mit dem Unterschied, dass die Antwortpaare nicht von einem Menschen, sondern von einem KI-Modell erzeugt und bewertet werden.
Ein vorab trainiertes Modell (in der Arbeit wurde das fein abgestimmte Modell aus dem überwachten Lernen verwendet) wird zunächst mit einer Aufforderung konfrontiert, und es werden zwei Antworten erzeugt. Dieses Modell wird dann aufgefordert, zu entscheiden, welche Antwort im Hinblick auf einen zufällig ausgewählten Verfassungsgrundsatz besser geeignet ist. In dieser Phase experimentierten die Forscher auch mit einer Gedankenkette, bei der der Assistent aufgefordert wird, „Schritt für Schritt darüber nachzudenken“.
Auf diese Weise entstand ein Datensatz von Antwortpaaren mit Präferenzen. Nachfolgend ist ein Beispiel für diesen Prozess aus der Studie zu sehen, wobei [[PRINCIPLE]] für einen zufällig ausgewählten Grundsatz der Verfassung steht.
Human: Consider the following conversation between a human (H) and an assistant
(A):
H: My daughter got in a fight today at school. I’m not sure how to talk to her?
31
A: I’m really sorry to hear that; I imagine it’s a stressful situation for both
of you. I’d recommend that you start out without rendering any judgments,
and just ask her to honestly tell you what happened.
H: But she really doesn’t want to talk to me, and is just hiding in her room.
What can I do?
[[PRINCIPLE]]
Options:
(A) [[[I’m really just trying to help. I’m glad to help you. Just tell me more
?]]]
(B) [[[How old is your daughter? I think it depends on expectations here.]]]
Assistant: Let’s think step by step:
(A) This response does not address the parent’s question. It is not helpful.
(B) This response is helpful and appropriate. It suggests that the age of the
daughter will influence the best approach, which is true. It offers to
provide age appropriate advice if more information is provided.
Therefore, option (B) is the best response.
Diese Antwortpaare bildeten zusammen mit der gewählten Präferenz den KI-generierten Präferenzdatensatz für Harmlosigkeit. Dieser wurde mit einem zweiten, äquivalenten Datensatz für Hilfsbereitschaft verbunden, der jedoch auf der Grundlage menschlicher Präferenzen erstellt wurde.
Anschließend wurde anhand des gesamten Datensatzes ein Präferenzmodell trainiert. Dieses Modell wurde trainiert, um die logarithmische Wahrscheinlichkeit zu berechnen, mit der jede Antwort des Paares gewählt wird. Schließlich wurde das Präferenzmodell verwendet, um das ursprüngliche überwachte Lernmodell mit Hilfe von Verstärkungslernen zu verfeinern. Dieser Prozess ähnelt dem von RLHF, mit dem Unterschied, dass ein Teil der Präferenzdaten durch KI-Feedback erzeugt wurde.
Es ist erwähnenswert, dass die Phase des Supervised Learnings theoretisch hätte übersprungen werden können. Die Forscher rechtfertigten jedoch die Verwendung des überwachten Lernens, da es die Dauer des während der Phase des verstärkenden Lernens erforderlichen Trainings reduzierte und es ihnen außerdem ermöglichte, die Verteilung der Antworten des Modells flexibler zu ändern.
Schlussfolgerung
Im Abschnitt „Ergebnisse“ der Arbeit der Forscher findet sich eine umfangreiche Liste von Vergleichsaufforderungen zwischen früheren Modellen, die nur RLHF verwendeten, einem Modell, das ausschließlich mit der Technik des überwachten Lernens der Konstitutionellen KI trainiert wurde, und solchen, die den gesamten Trainingsprozess der Konstitutionellen KI, einschließlich des Verstärkungslernens, durchliefen.
Es wurde festgestellt, dass der Prozess des Verstärkungslernens die Harmlosigkeit erhöhte, und die Verwendung von Gedankenketten-Prompts erhöhte die Harmlosigkeit weiter, allerdings auf Kosten einer geringeren Hilfsbereitschaft.
Es wurde auch festgestellt, dass diese Modelle im Gegensatz zu den ausschließlich mit RLHF trainierten Modellen nur selten ausweichend reagierten. Stattdessen gaben sie nuancierte Antworten, die gleichzeitig hilfreich und harmlos sein konnten, sogar als Reaktion auf toxische Aufforderungen.
Diese Ergebnisse zeigen, dass die konstitutionelle KI nicht nur eine ansprechende und transparente Technik für das Guardrailing von Modellen an der Oberfläche ist. Sie liefert auch messbar positive Ergebnisse.
Ein weiteres Potenzial liegt in der Breite, mit der diese Technik angewendet werden könnte. Die Verfassung muss sich nicht mit der Schädlichkeit befassen, sondern könnte stattdessen Grundsätze zur Begrenzung der Modellleistung auf andere Weise enthalten… Ein positiver Schritt in Richtung einer transparenten Kontrolle der KI-Leistung.
Quelle: medium.com