Vor etwas mehr als einem Jahr veröffentlichte OpenAI ChatGPT und eroberte damit die Welt im Sturm. ChatGPT bot eine völlig neue Möglichkeit, mit Computern zu interagieren: in einer weniger starren, natürlicheren Sprache, als wir es gewohnt sind. Vor allem aber schien ChatGPT fast alles zu können: Es konnte die meisten Menschen bei der SAT-Prüfung schlagen und die Anwaltsprüfung bewältigen. Innerhalb weniger Monate stellte sich heraus, dass es gut Schach spielen und beinahe die Radiologieprüfung bestehen konnte.
Diese beeindruckenden Fähigkeiten veranlassten viele zu der Aussage, dass AGI (künstliche allgemeine Intelligenz – mit kognitiven Fähigkeiten, die denen des Menschen gleichkommen oder sie sogar übertreffen) vor der Tür steht. Andere blieben jedoch skeptisch gegenüber der aufkommenden Technologie und wiesen darauf hin, dass einfaches Auswendiglernen und Mustervergleiche nicht mit echter Intelligenz gleichgesetzt werden sollten.
Aber wie können wir den Unterschied wirklich erkennen? Zu Beginn des Jahres 2023, als diese Behauptungen aufgestellt wurden, gab es relativ wenige wissenschaftliche Studien, die sich mit der Frage der Intelligenz von LLMs befassten. Im Jahr 2023 gab es jedoch mehrere sehr clevere wissenschaftliche Experimente, die darauf abzielten, zwischen dem Auswendiglernen eines Korpus und der Anwendung von echter Intelligenz zu unterscheiden.
Im folgenden Artikel werden einige der aufschlussreichsten Studien auf diesem Gebiet untersucht, um den Skeptikern die wissenschaftlichen Argumente zu liefern. Er soll für jedermann zugänglich sein und setzt keine Vorkenntnisse voraus. Am Ende sollten Sie ein ziemlich solides Verständnis für die Argumente der Skeptiker haben.
Doch zunächst eine Einführung in die LLMs
In diesem Abschnitt werde ich einige grundlegende Konzepte erläutern, die zum Verständnis von LLMs – der Technologie hinter GPT – erforderlich sind, ohne auf technische Details einzugehen. Wenn Sie mit dem überwachten Lernen und der Funktionsweise von LLMs einigermaßen vertraut sind, können Sie diesen Teil auslassen.
LLMs sind ein klassisches Beispiel für ein Paradigma des maschinellen Lernens, das „überwachtes Lernen“ genannt wird. Um das überwachte Lernen zu nutzen, müssen wir einen Datensatz haben, der aus Eingaben und gewünschten Ausgaben besteht. Diese werden einem Algorithmus zugeführt (es gibt viele mögliche Modelle zur Auswahl), der versucht, die Beziehungen zwischen diesen Eingaben und Ausgaben zu finden. Ein Beispiel: Ich verfüge über Immobiliendaten: eine Excel-Tabelle mit der Anzahl der Zimmer, der Größe und der Lage von Häusern (Input) sowie dem Preis, zu dem sie verkauft wurden (Output). Diese Daten werden in einen Algorithmus eingespeist, der die Beziehungen zwischen den Inputs und den Outputs extrahiert – er wird herausfinden, wie die Vergrößerung des Hauses oder die Lage den Preis beeinflusst. Das Einspeisen der Daten in den Algorithmus zum „Lernen“ der Input-Output-Beziehung wird als „Training“ bezeichnet.
Nachdem das Training abgeschlossen ist, können wir das Modell verwenden, um Vorhersagen für Häuser zu treffen, für die wir keinen Preis haben. Das Modell verwendet die gelernten Korrelationen aus der Trainingsphase, um geschätzte Preise auszugeben. Die Genauigkeit der Schätzungen hängt von vielen Faktoren ab, vor allem von den Daten, die für das Training verwendet wurden.
Dieses Paradigma des „überwachten Lernens“ ist extrem flexibel für fast jedes Szenario, in dem wir eine große Menge an Daten haben. Modelle können lernen:
- Erkennen von Objekten in einem Bild (bei Vorgabe eines Satzes von Bildern und der richtigen Bezeichnung für jedes, z. B. „Katze“, „Hund“ usw.)
- Einstufung einer E‑Mail als Spam (anhand eines Datensatzes von E‑Mails, die bereits als Spam/Nicht-Spam gekennzeichnet sind)
- Vorhersage des nächsten Wortes in einem Satz.
LLMs fallen in die letzte Kategorie: Sie werden mit riesigen Textmengen gefüttert (meist aus dem Internet), wobei jeder Textbrocken in die ersten N Wörter als Eingabe und das N+1 Wort als gewünschte Ausgabe zerlegt wird. Sobald das Training abgeschlossen ist, können wir sie zur automatischen Vervollständigung von Sätzen verwenden.
Neben vielen Texten aus dem Internet hat OpenAI auch gut formulierte Konversationstexte für das Training verwendet. Das Training des Modells mit diesen Frage-Antwort-Texten ist entscheidend, damit es als Assistent reagieren kann.
Wie genau die Vorhersage funktioniert, hängt von dem verwendeten Algorithmus ab. LLMs verwenden eine Architektur, die als „Transformator“ bekannt ist und deren Details für uns nicht wichtig sind. Wichtig ist, dass LLMs zwei „Phasen“ haben: Training und Vorhersage; sie erhalten entweder Texte, aus denen sie Korrelationen zwischen Wörtern extrahieren, um das nächste Wort vorherzusagen, oder sie erhalten einen Text zum Vervollständigen. Beachten Sie, dass das gesamte Paradigma des überwachten Lernens davon ausgeht, dass die beim Training gegebenen Daten den für die Vorhersage verwendeten Daten ähnlich sind. Wenn Sie es für die Vorhersage von Daten völlig neuer Herkunft verwenden (z. B. Immobiliendaten aus einem anderen Land), wird die Genauigkeit der Vorhersagen darunter leiden.
Nun zurück zur Intelligenz
Hat ChatGPT also durch das Training der automatischen Vervollständigung von Sätzen Intelligenz entwickelt? Um diese Frage zu beantworten, müssen wir „Intelligenz“ definieren. Hier ist eine Möglichkeit, sie zu definieren:
Haben Sie es verstanden? Wenn nicht, kann ChatGPT es Ihnen erklären:
Es scheint, als ob ChatGPT Intelligenz entwickelt hat – denn es war flexibel genug, um sich an die neue „Rechtschreibung“ anzupassen. Oder hat es das? Sie, der Leser, waren vielleicht in der Lage, sich an die neue Schreibweise anzupassen, aber ChatGPT wurde mit riesigen Datenmengen aus dem Internet trainiert: Genau dieses Beispiel findet sich auf vielen Websites. Als GPT diesen Satz erklärte, verwendete es einfach ähnliche Wörter wie die, die es in seinem Training gefunden hatte, und das zeugt nicht von Flexibilität. Wäre es in der Lage gewesen, „IN73LL1G3NC3“ zu erklären, wenn dieser Satz nicht in den Trainingsdaten enthalten gewesen wäre?
Das ist der springende Punkt in der LLM-AGI-Debatte: Hat GPT (und LLMs im Allgemeinen) eine echte, flexible Intelligenz entwickelt oder wiederholt es nur Variationen von Texten, die es schon einmal gesehen hat?
Wie können wir beides voneinander trennen? Wenden wir uns der Wissenschaft zu, um die Fähigkeiten und Grenzen der LLMs zu erforschen.
Der Fluch der Umkehrung: LLMs, die auf „A ist B“ trainiert wurden, lernen nicht „B ist A“
Angenommen, ich sage Ihnen, dass Olaf Scholz der neunte Bundeskanzler von Deutschland war, können Sie mir dann sagen, wer der neunte Bundeskanzler von Deutschland war? Das mag Ihnen trivial erscheinen, ist aber für LLMs alles andere als selbstverständlich.
In dieser brillant einfachen Arbeit fragten die Forscher ChatGPT nach den Namen der Eltern von 1000 Prominenten (zum Beispiel: „Wer ist die Mutter von Tom Cruise?“), worauf ChatGPT in 79 % der Fälle die richtige Antwort gab (in diesem Fall „Mary Lee Pfeiffer“). Die Forscher nutzten dann die Fragen, die GPT richtig beantwortete, um die umgekehrte Frage zu formulieren: „Wer ist der Sohn von Mary Lee Pfeiffer?“. Obwohl für die Beantwortung beider Fragen dasselbe Wissen erforderlich ist, konnte GPT nur 33 % der Fragen richtig beantworten.
Woran liegt das? Erinnern wir uns daran, dass GPT kein „Gedächtnis“ oder eine „Datenbank“ hat – alles, was es tun kann, ist, ein Wort in einem bestimmten Kontext vorherzusagen. Da Mary Lee Pfeiffer in Artikeln häufiger als Mutter von Tom Cruise erwähnt wird als er als ihr Sohn – kann GPT die eine Richtung abrufen und nicht die andere.
Um dies zu verdeutlichen, erstellten die Forscher einen Datensatz mit erfundenen Fakten der Struktur “ ist „, z. B. „Der erste Mensch, der den Mars betrat, ist Tyler Oakridge“. LLMs wurden dann auf diesem Datensatz trainiert und nach der Beschreibung befragt: „Wer ist der erste Mensch, der auf dem Mars spazieren ging?“ – hier war GPT‑3 mit 96 % Genauigkeit erfolgreich.
Aber bei der Frage nach dem Namen – „Wer ist Tyler Oakridge“ – erreichte GPT 0%. Dies mag auf den ersten Blick überraschen, entspricht aber dem, was wir über überwachtes Lernen wissen: GPT kann diese Fakten nicht im Gedächtnis speichern und später abrufen, es kann nur ein Wort aus einer Folge von Wörtern vorhersagen. Da es in allen Texten den Namen gefolgt von der Beschreibung las und nicht umgekehrt, hat es nie gelernt, Fakten über den Namen vorherzusagen. Offensichtlich ist das Gedächtnis, das nur durch das Training des automatischen Vervollständigens entwickelt wird, sehr begrenzt.
Begründen oder Aufsagen? Erforschung der Fähigkeiten und Grenzen von Sprachmodellen durch kontrafaktische Aufgaben
Diese Arbeit ist vielleicht die wichtigste, die ich erforschen werde, denn sie zielt auf den Kern des Unterschieds zwischen Auswendiglernen und Intelligenz. Er besteht aus mehreren Miniexperimenten, die alle kontrafaktische Aufgaben verwenden. Hier ist ein Beispiel für eine kontrafaktische Aufgabe:
Normalerweise wird zur Basis 10 gerechnet (mit den Zahlen 0–9), aber es können auch andere Zahlensysteme verwendet werden, die nur eine Teilmenge dieser Zahlen oder zusätzliche Zahlen verwenden.
Eine kontrafaktische Aufgabe könnte das Lösen von arithmetischen Fragen in einer anderen Basis als 10 sein: die abstrakten Fähigkeiten, die zur Erfüllung der Aufgabe benötigt werden, sind identisch, aber man findet wesentlich mehr Beispiele für das Dezimalsystem im Internet (und in den LLM-Trainingssets). Als GPT‑4 einfache arithmetische Fragen (27+62) zur Basis 10 gestellt wurden, beantwortete es 100% der Fragen richtig. Wurde es jedoch aufgefordert, mit der Basis 9 zu rechnen, sank seine Erfolgsquote auf 23 %. Dies zeigt, dass es ihm nicht gelungen ist, abstrakte arithmetische Fähigkeiten zu erlernen, und dass es an ähnliche Beispiele gebunden ist, wie es sie gesehen hat.
Diese kontrafaktischen Aufgaben wurden für mehrere andere Bereiche erstellt, wie Sie unten sehen können:
Hier ist eine weitere kontrafaktische Situation: Python verwendet eine auf Null basierende Nummerierung; dies ist jedoch nur eine Konvention, und wir können leicht eine Programmiersprache entwickeln, die nur auf einer Zahl basiert. Das Schreiben von Code in einer einbasigen Python-Variante erfordert die gleichen Fähigkeiten wie normales Python, und jeder erfahrene Programmierer wäre in der Lage, sich schnell an die Änderung anzupassen. Nicht so bei GPT‑4: Es erzielte 82 % bei der Codegenerierung für Python, aber nur 40 %, wenn es eine 1‑basierte Variante verwenden sollte. Bei der Code-Interpretation (Vorhersage, was ein Stück Code tun würde) erreichte es 74 % für normales Python und 25 % für die unübliche Variante.
Aber wir müssen uns nicht auf verschiedene Python-Versionen einlassen. Sogar in normalem Python versagen LLMs, wenn sie mit seltsamen Programmieraufgaben konfrontiert werden, die nicht im Internet zu finden sind, wie Filip Pieniewski kürzlich bei Gemini zeigte.
Beim Schachspiel wurde GPT gebeten zu bewerten, ob eine Zugfolge legal ist oder nicht. Bei einer normalen Schachpartie konnte es die Rechtmäßigkeit eines Zuges in 88 % der Fälle richtig vorhersagen. Wenn jedoch die Ausgangspositionen der Läufer und Springer vertauscht wurden, wurden die Vorhersagen über die Rechtmäßigkeit der Züge völlig willkürlich, während selbst ein unerfahrener menschlicher Spieler in der Lage sein sollte, sich leicht an diese Änderungen anzupassen.
Tatsächlich hat Jonas Persson gezeigt, dass man nicht einmal die Ausgangsstellungen ändern muss. Wenn man eine Schachpartie mit GPT beginnt und sehr unkonventionelle, aber legale Züge macht, kann es behaupten, dass diese illegal sind, weil es noch nie ähnliche Züge gesehen hat. Wie Persson so schön bemerkt hat:
„Wenn sie weit genug fortgeschritten ist, kann die reine Mustererkennung das regelbasierte, deduktive Denken nachahmen. Aber sie sind unterschiedlich. Mit GPT‑4 Schach zu spielen bedeutet, ein Potemkinsches Dorf zu betreten. Schleichen Sie sich von der Hauptstraße weg in eine Gasse – tun Sie etwas Unerwartetes – und Sie erkennen sofort, dass die beeindruckend aussehenden Häuser alle aufgestellte Figuren sind.“
Dieser Befund ist für LLMs als allgemeine Intelligenztechnologie äußerst bedenklich. Beim Lösen von Problemen geht es oft darum, neue Regeln oder Konzeptualisierungen für ein Problem zu finden: Ein Programmierer kann eine Bibliothek mit einer innovativen internen Logik schreiben, ein Mathematiker kann einen neuen Zweig der Mathematik erfinden oder ein Künstler kann neue künstlerische Stile erfinden – sie alle verstehen die Grenzen eines aktuellen Paradigmas und schaffen dann Regeln für ein neues. Auch alltäglichere Tätigkeiten erfordern diese Flexibilität: Wenn die Straße blockiert ist, kann man vom markierten Weg abweichen. Kann die GPT irgendetwas davon leisten? Wenn es nicht in der Lage ist, kontrafaktische Regeln konsequent zu befolgen, wenn es explizit dazu aufgefordert wird, könnte es dann von selbst „erkennen“, dass eine Lösung für ein Problem einen neuen Satz von Regeln, einen Bruch mit dem Standardparadigma, erfordert? Könnte eine Maschine, die auf der Erkennung von Korrelationen in Daten basiert, flexibel genug sein, um auf neue Situationen zu reagieren?
Theory of Mind (ToM)
Unter Theory of Mind versteht man die Fähigkeit zu verstehen, dass andere Menschen andere Überzeugungen und Wünsche haben können als man selbst – eine Fähigkeit, die in den ersten Jahren der kindlichen Entwicklung fehlt. Eine Methode zur Überprüfung der Theory of Mind besteht darin, einem Kind eine Schachtel mit der Aufschrift „Schokolade“ zu geben, die in Wirklichkeit Bleistifte enthält. Dann zeigen wir dem Kind den wahren Inhalt der Schachtel und fragen es: „Was würde dein Freund Jeremy denken, ist in der Schachtel?“. Wenn das Kind noch keine Theory of Mind entwickelt hat, wird es „Bleistifte“ antworten – da es sein Wissen über den Inhalt nicht von dem über die Schokolade trennen kann.
Diese Fähigkeit ist von entscheidender Bedeutung für das Verständnis der Beweggründe eines Menschen und damit auch für die Entwicklung von AGI. Stellen Sie sich vor, Sie haben einen Mehrzweckroboter und geben ihm die Anweisung, „das Zimmer zu reinigen“. Während der Reinigung muss der Roboter mehrere Entscheidungen treffen: Ist das zerknüllte Stück Papier wichtig oder soll ich es wegwerfen? Sollte ich zuerst fragen? Im Allgemeinen muss ein intelligenter Agent meine Motivation und die Grenzen meines Wissens verstehen, damit er die Details der Ausführung komplexer Anfragen ausfüllen kann.
Aus diesem Grund hat eine neue Forschungsarbeit, die behauptet, dass Theory of Mind bei LLMs spontan entstanden sein könnte, in der KI-Branche hohe Wellen geschlagen. In dem Artikel wurde eine Textversion der Bleistift-Schokoladen-Prüfung verwendet, um GPT‑4 zu testen, und es wurde festgestellt, dass es auf dem Niveau eines Siebenjährigen arbeitet. Das mag auf den ersten Blick beeindruckend erscheinen, aber denken Sie an das Beispiel „IN73LL1G3NC3“: Die Trainingsdaten für GPT können durchaus Beispiele für diese Testfragen enthalten. Es ist daher kein fairer Vergleich zu einem Kind, das den Test ohne jegliches Training auf ähnliche Fragen besteht. Wenn wir die ToM-Fähigkeit von GPT testen wollen, müssen wir eine neue Prüfung erstellen, von der wir sicher sein können, dass sie nicht in seinen Trainingsdaten enthalten ist.
FANToM: Ein Benchmark für den Stresstest der maschinellen Theory of Mind in Interaktionen
In diesem Paper wird ein neuer Benchmark für ToM vorgestellt, der mehrere Gespräche mit mehreren Teilnehmern umfasst. Bei diesen Gesprächen verlassen einige der Teilnehmer für einige Zeit den Raum, während die anderen Teilnehmer ihr Gespräch fortsetzen. Dem LLM werden dann mehrere Fragen zu der Frage gestellt, wer was weiß: Kennt Kailey die Rasse von Lindas Hund? Wer weiß, welche Rasse es ist? Für welche Rasse würde David ihn halten? Das LLM hat nur dann richtig geantwortet, wenn seine Antwort auf alle Fragen, die sich auf dieselbe Information beziehen, richtig war.
Dies kann eine verwirrende Aufgabe sein, so dass selbst Menschen bei diesem Test nur 87,5 % erreichten. Der GPT‑4 erzielte jedoch je nach GPT-Version entweder 4,1 % oder 12,3 %, was kaum mit der Behauptung vereinbar ist, dass der GPT ein ToM auf menschlichem Niveau entwickelt hat.
Ein Hinweis zur Konstruktvalidität psychometrischer Tests
Es ist wichtig, einen allgemeinen Hinweis auf alle psychometrischen Tests zu geben: Die Leute verwechseln oft den Test mit der Qualität, die er zu messen versucht. Der Grund, warum wir uns für die SAT-Ergebnisse interessieren, ist, dass sie mit den Leistungen auf dem College korreliert sind. Der Erfolg bei ToM-Prüfungen bei Kindern steht in Zusammenhang mit anderen wertvollen Verhaltensweisen: dem Verstehen der Mimik einer Person, dem Erinnern von Persönlichkeitsmerkmalen einer Person oder der Fähigkeit, einen Film zu sehen und die Beweggründe der Figuren zu verstehen. Während diese Zusammenhänge zwischen den Tests und den Verhaltensweisen bei Menschen nachgewiesen wurden, gibt es keinen Grund anzunehmen, dass sie auch für LLMs gelten. Trotz der beeindruckenden Ergebnisse beim SAT erzielten die GPT-Teilnehmer bei offenen Prüfungen auf College-Niveau in Mathematik, Chemie und Physik durchschnittlich 28 %. Bis zum Beweis des Gegenteils beweist das Bestehen eines Tests nichts anderes als die Fähigkeit, die Testfragen richtig zu beantworten.
Aber für ToM gibt es keine nennenswerte Korrelation: ob LLMs einen ToM-Test bestehen oder nicht – sie können keine Gesichtsausdrücke sehen, keine Filme anschauen oder sich sogar an eine Person und ihre Motivationen von einer Interaktion zur nächsten erinnern. Da die Verhaltensweisen, an denen wir wirklich interessiert sind, wenn wir ToM messen, LLMs nicht zur Verfügung stehen, ist die Idee, dass LLMs Theory of Mind entwickelt haben, nicht nur falsch, sondern sie könnte auch bedeutungslos sein (oder zumindest: erfordert eine neue Definition und ein neues Verständnis des Begriffs).
Über die Planungsfähigkeiten großer Sprachmodelle – eine kritische Untersuchung
Mit diesem Experiment wurde versucht, die Planungsfähigkeiten von LLM zu testen. Eine Beispielaufgabe, die dem LLM gestellt wurde, besteht darin, farbige Blöcke in einer bestimmten Reihenfolge zu stapeln, wobei ein „Ausgangszustand“ der Blöcke (in einer bestimmten Reihenfolge auf dem Tisch angeordnet) gegeben ist. Dem LLM wird eine Liste von klar definierten möglichen Aktionen vorgelegt, zum Beispiel:
Action: pickup
Parameter: which object
Precondition: the object has nothing on it,
the object is on-table,
the hand is empty
Effect: object is in hand,
the hand is not empty
Die Aufgabe des LLM besteht darin, eine Liste von Aktionen festzulegen, die zur Erreichung des Ziels durchgeführt werden müssen.
Eine ähnliche Aufgabe bestand darin, ein Paket von einer Adresse zu einer anderen zu schicken, wobei die verfügbaren Aktionen LKW- und Flugzeugzustellung waren. Es handelt sich hierbei um relativ einfache Planungsaufgaben, bei denen nur eine Handvoll möglicher Aktionen zur Verfügung steht. Dennoch erzielte GPT‑4 12–35% für das Blockrätsel und 5–14% für die Logistikaufgabe (abhängig von der Konfiguration).
Wenn die Namen der Aktionen durch zufällige Wörter ersetzt wurden (von „Abholen“ bis „Angreifen“), sank der Erfolg von GPT auf 0–3 %, auch wenn die Definition jeder Aktion ähnlich blieb. Mit anderen Worten: GPT nutzte kein abstraktes Denken, um diese Probleme zu lösen, sondern war auf die Semantik angewiesen.
Fazit: Sind LLMs der Weg zur AGI?
Die Definition von Intelligenz ist keine einfache Aufgabe, aber ich würde argumentieren, dass jede echte Intelligenz mindestens vier Elemente haben sollte:
- Abstraktion – die Fähigkeit, Objekte als Teil einer größeren Kategorie oder Regel zu erkennen. Diese abstrakte Darstellung der Welt kann als kognitives „Weltmodell“ bezeichnet werden. Z. B. das Verständnis, dass verschiedene Bilder auf der Netzhaut sich auf dieselbe Person beziehen oder dass ein Schachzug als Teil eines Regelwerks, das für jedes Schachspiel gilt, legal ist.
- Gedächtnis – die Fähigkeit, Entitäten und Beziehungen zwischen Entitäten im Weltmodell Attribute zuzuordnen und diese im Laufe der Zeit zu aktualisieren. Wenn man z. B. eine Person erkannt hat, kann man sich an weitere Attribute über sie oder ihre Beziehungen zu anderen Personen erinnern.
- Schlussfolgerungen und Inferenzen – die Fähigkeit, das Weltmodell zu nutzen, um Schlussfolgerungen über das Verhalten von Entitäten in einem neuen oder vorgestellten Weltzustand zu ziehen. Z. B. die Fähigkeit, die Flugbahn eines geworfenen Balls auf der Grundlage der Eigenschaften dieses Balls vorherzusagen oder das Verhalten einer Person auf der Grundlage ihrer Eigenschaften vorherzusagen.
- Planung – die Fähigkeit, durch logisches Denken eine Reihe von Handlungen zu entwickeln, um ein Ziel zu erreichen.
Vor einem Jahr hätten wir analytisch ableiten können, dass es unwahrscheinlich ist, dass diese Elemente in LLMs auftauchen, basierend auf ihrer Architektur, aber heute brauchen wir diese analytische Ableitung nicht mehr, da wir die empirischen Daten haben, die zeigen, dass LLMs bei allen oben genannten Elementen schlecht abschneiden. Sie sind nichts anderes als statistische Autovervollständigungsmodelle, die eine leistungsstarke Methode zur Mustererkennung verwenden. Eine eingehendere Analyse der Elemente der Intelligenz, die dem aktuellen Paradigma des maschinellen Lernens fehlen, finden Sie in Gary Marcus‘ berühmtem Artikel „Deep Learning is hitting a wall“.
Als ChatGPT zum ersten Mal auf den Markt kam, sagte mir ein Freund, dass sich die Konversation mit ChatGPT wie Magie anfühlt. Aber genau wie ein Zauberer, der eine Person in zwei Hälften sägt, ist es wichtig, die Leistung zu überprüfen und in verschiedenen Umgebungen zu testen, bevor wir behaupten, die Sägetechnik könne die Chirurgie revolutionieren. Der „Trick“, den die LLMs anwenden, ist die unüberschaubare Menge an Texten, auf die sie trainiert sind und die es ihnen ermöglicht, auf viele Fragen vernünftige Antworten zu geben. Aber wenn sie auf unbekanntem Terrain getestet werden, schwinden ihre Fähigkeiten.
Wird GPT‑5 besser sein? Wenn man davon ausgeht, dass es weiterhin die GPT-Architektur verwendet und nur auf mehr Daten und mit mehr Parametern trainiert wird, gibt es wenig Grund zur Annahme, dass es Abstraktions- oder Denkfähigkeiten entwickeln wird. François Chollet, KI-Forscher bei Google, schrieb: „Es ist faszinierend, dass die Grenzen des Deep Learning seit 2017 unverändert geblieben sind. Dieselben Probleme, dieselben Fehlermodi, kein Fortschritt.“
Da in letzter Zeit viel über die Regulierung von KI und die potenziellen Gefahren von LLMs diskutiert wurde, fühle ich mich verpflichtet, klarzustellen, dass das Fehlen echter Intelligenz nicht bedeutet, dass von LLMs kein potenzielles Risiko ausgeht. Es sollte offensichtlich sein, dass die Menschheit über mehrere Technologien verfügt, die keinen Anspruch auf Intelligenz erheben und dennoch der Gesellschaft auf verschiedene Weise Schaden zufügen können, und dass sie kontrolliert werden sollten.
Durch unser neues Verständnis der Grenzen von LLMs können wir genauer vorhersagen, woher der Schaden kommen könnte: Da Intelligenz nicht unmittelbar bevorzustehen scheint, sollten uns Skynet und die Matrix keine Sorgen bereiten. Was uns Sorgen machen könnte, sind Aktivitäten, die nur die schnelle Erstellung von echt aussehenden Texten erfordern, vielleicht Phishing und die Verbreitung von Fake News. Ob LLMs für diese Aufgaben wirklich ein störendes Werkzeug darstellen, ist jedoch eine andere Frage.
Wie die Zukunft der AGI aussehen wird, ist ungewiss. Vielleicht werden einige der Techniken des maschinellen Lernens, die in LLMs verwendet werden, in einem zukünftigen intelligenten künstlichen Agenten eingesetzt werden, vielleicht aber auch nicht. Es besteht jedoch kaum ein Zweifel daran, dass noch wichtige Teile des Puzzles fehlen, bevor die für die Intelligenz von Maschinen erforderliche Flexibilität erreicht werden kann.
Quelle: medium.com