Vor etwas mehr als einem Jahr ver­öf­fent­lichte Ope­nAI ChatGPT und eroberte damit die Welt im Sturm. ChatGPT bot eine völ­lig neue Mög­lich­keit, mit Com­pu­tern zu inter­agie­ren: in einer weni­ger star­ren, natür­li­che­ren Spra­che, als wir es gewohnt sind. Vor allem aber schien ChatGPT fast alles zu kön­nen: Es konnte die meis­ten Men­schen bei der SAT-Prü­fung schla­gen und die Anwalts­prü­fung bewäl­ti­gen. Inner­halb weni­ger Monate stellte sich her­aus, dass es gut Schach spie­len und bei­nahe die Radio­lo­gie­prü­fung bestehen konnte.

Diese beein­dru­cken­den Fähig­kei­ten ver­an­lass­ten viele zu der Aus­sage, dass AGI (künst­li­che all­ge­meine Intel­li­genz – mit kogni­ti­ven Fähig­kei­ten, die denen des Men­schen gleich­kom­men oder sie sogar über­tref­fen) vor der Tür steht. Andere blie­ben jedoch skep­tisch gegen­über der auf­kom­men­den Tech­no­lo­gie und wie­sen dar­auf hin, dass ein­fa­ches Aus­wen­dig­ler­nen und Mus­ter­ver­glei­che nicht mit ech­ter Intel­li­genz gleich­ge­setzt wer­den sollten.

Aber wie kön­nen wir den Unter­schied wirk­lich erken­nen? Zu Beginn des Jah­res 2023, als diese Behaup­tun­gen auf­ge­stellt wur­den, gab es rela­tiv wenige wis­sen­schaft­li­che Stu­dien, die sich mit der Frage der Intel­li­genz von LLMs befass­ten. Im Jahr 2023 gab es jedoch meh­rere sehr cle­vere wis­sen­schaft­li­che Expe­ri­mente, die dar­auf abziel­ten, zwi­schen dem Aus­wen­dig­ler­nen eines Kor­pus und der Anwen­dung von ech­ter Intel­li­genz zu unterscheiden.

Im fol­gen­den Arti­kel wer­den einige der auf­schluss­reichs­ten Stu­dien auf die­sem Gebiet unter­sucht, um den Skep­ti­kern die wis­sen­schaft­li­chen Argu­mente zu lie­fern. Er soll für jeder­mann zugäng­lich sein und setzt keine Vor­kennt­nisse vor­aus. Am Ende soll­ten Sie ein ziem­lich soli­des Ver­ständ­nis für die Argu­mente der Skep­ti­ker haben.

Doch zunächst eine Ein­füh­rung in die LLMs

In die­sem Abschnitt werde ich einige grund­le­gende Kon­zepte erläu­tern, die zum Ver­ständ­nis von LLMs – der Tech­no­lo­gie hin­ter GPT – erfor­der­lich sind, ohne auf tech­ni­sche Details ein­zu­ge­hen. Wenn Sie mit dem über­wach­ten Ler­nen und der Funk­ti­ons­weise von LLMs eini­ger­ma­ßen ver­traut sind, kön­nen Sie die­sen Teil auslassen.

LLMs sind ein klas­si­sches Bei­spiel für ein Para­digma des maschi­nel­len Ler­nens, das „über­wach­tes Ler­nen“ genannt wird. Um das über­wachte Ler­nen zu nut­zen, müs­sen wir einen Daten­satz haben, der aus Ein­ga­ben und gewünsch­ten Aus­ga­ben besteht. Diese wer­den einem Algo­rith­mus zuge­führt (es gibt viele mög­li­che Modelle zur Aus­wahl), der ver­sucht, die Bezie­hun­gen zwi­schen die­sen Ein­ga­ben und Aus­ga­ben zu fin­den. Ein Bei­spiel: Ich ver­füge über Immo­bi­li­en­da­ten: eine Excel-Tabelle mit der Anzahl der Zim­mer, der Größe und der Lage von Häu­sern (Input) sowie dem Preis, zu dem sie ver­kauft wur­den (Out­put). Diese Daten wer­den in einen Algo­rith­mus ein­ge­speist, der die Bezie­hun­gen zwi­schen den Inputs und den Out­puts extra­hiert – er wird her­aus­fin­den, wie die Ver­grö­ße­rung des Hau­ses oder die Lage den Preis beein­flusst. Das Ein­spei­sen der Daten in den Algo­rith­mus zum „Ler­nen“ der Input-Out­put-Bezie­hung wird als „Trai­ning“ bezeichnet.

Nach­dem das Trai­ning abge­schlos­sen ist, kön­nen wir das Modell ver­wen­den, um Vor­her­sa­gen für Häu­ser zu tref­fen, für die wir kei­nen Preis haben. Das Modell ver­wen­det die gelern­ten Kor­re­la­tio­nen aus der Trai­nings­phase, um geschätzte Preise aus­zu­ge­ben. Die Genau­ig­keit der Schät­zun­gen hängt von vie­len Fak­to­ren ab, vor allem von den Daten, die für das Trai­ning ver­wen­det wurden.

Die­ses Para­digma des „über­wach­ten Ler­nens“ ist extrem fle­xi­bel für fast jedes Sze­na­rio, in dem wir eine große Menge an Daten haben. Modelle kön­nen lernen:

  • Erken­nen von Objek­ten in einem Bild (bei Vor­gabe eines Sat­zes von Bil­dern und der rich­ti­gen Bezeich­nung für jedes, z. B. „Katze“, „Hund“ usw.)
  • Ein­stu­fung einer E‑Mail als Spam (anhand eines Daten­sat­zes von E‑Mails, die bereits als Spam/­Nicht-Spam gekenn­zeich­net sind)
  • Vor­her­sage des nächs­ten Wor­tes in einem Satz.

LLMs fal­len in die letzte Kate­go­rie: Sie wer­den mit rie­si­gen Text­men­gen gefüt­tert (meist aus dem Inter­net), wobei jeder Text­bro­cken in die ers­ten N Wör­ter als Ein­gabe und das N+1 Wort als gewünschte Aus­gabe zer­legt wird. Sobald das Trai­ning abge­schlos­sen ist, kön­nen wir sie zur auto­ma­ti­schen Ver­voll­stän­di­gung von Sät­zen verwenden.

Neben vie­len Tex­ten aus dem Inter­net hat Ope­nAI auch gut for­mu­lierte Kon­ver­sa­ti­ons­texte für das Trai­ning ver­wen­det. Das Trai­ning des Modells mit die­sen Frage-Ant­wort-Tex­ten ist ent­schei­dend, damit es als Assis­tent reagie­ren kann.

Wie genau die Vor­her­sage funk­tio­niert, hängt von dem ver­wen­de­ten Algo­rith­mus ab. LLMs ver­wen­den eine Archi­tek­tur, die als „Trans­for­ma­tor“ bekannt ist und deren Details für uns nicht wich­tig sind. Wich­tig ist, dass LLMs zwei „Pha­sen“ haben: Trai­ning und Vor­her­sage; sie erhal­ten ent­we­der Texte, aus denen sie Kor­re­la­tio­nen zwi­schen Wör­tern extra­hie­ren, um das nächste Wort vor­her­zu­sa­gen, oder sie erhal­ten einen Text zum Ver­voll­stän­di­gen. Beach­ten Sie, dass das gesamte Para­digma des über­wach­ten Ler­nens davon aus­geht, dass die beim Trai­ning gege­be­nen Daten den für die Vor­her­sage ver­wen­de­ten Daten ähn­lich sind. Wenn Sie es für die Vor­her­sage von Daten völ­lig neuer Her­kunft ver­wen­den (z. B. Immo­bi­li­en­da­ten aus einem ande­ren Land), wird die Genau­ig­keit der Vor­her­sa­gen dar­un­ter leiden.

Nun zurück zur Intelligenz

Hat ChatGPT also durch das Trai­ning der auto­ma­ti­schen Ver­voll­stän­di­gung von Sät­zen Intel­li­genz ent­wi­ckelt? Um diese Frage zu beant­wor­ten, müs­sen wir „Intel­li­genz“ defi­nie­ren. Hier ist eine Mög­lich­keit, sie zu definieren:

Haben Sie es ver­stan­den? Wenn nicht, kann ChatGPT es Ihnen erklären:

Es scheint, als ob ChatGPT Intel­li­genz ent­wi­ckelt hat – denn es war fle­xi­bel genug, um sich an die neue „Recht­schrei­bung“ anzu­pas­sen. Oder hat es das? Sie, der Leser, waren viel­leicht in der Lage, sich an die neue Schreib­weise anzu­pas­sen, aber ChatGPT wurde mit rie­si­gen Daten­men­gen aus dem Inter­net trai­niert: Genau die­ses Bei­spiel fin­det sich auf vie­len Web­sites. Als GPT die­sen Satz erklärte, ver­wen­dete es ein­fach ähn­li­che Wör­ter wie die, die es in sei­nem Trai­ning gefun­den hatte, und das zeugt nicht von Fle­xi­bi­li­tät. Wäre es in der Lage gewe­sen, „IN73LL1G3NC3“ zu erklä­ren, wenn die­ser Satz nicht in den Trai­nings­da­ten ent­hal­ten gewe­sen wäre?

Das ist der sprin­gende Punkt in der LLM-AGI-Debatte: Hat GPT (und LLMs im All­ge­mei­nen) eine echte, fle­xi­ble Intel­li­genz ent­wi­ckelt oder wie­der­holt es nur Varia­tio­nen von Tex­ten, die es schon ein­mal gese­hen hat?

Wie kön­nen wir bei­des von­ein­an­der tren­nen? Wen­den wir uns der Wis­sen­schaft zu, um die Fähig­kei­ten und Gren­zen der LLMs zu erforschen.

Der Fluch der Umkeh­rung: LLMs, die auf „A ist B“ trai­niert wur­den, ler­nen nicht „B ist A“

Ange­nom­men, ich sage Ihnen, dass Olaf Scholz der neunte Bun­des­kanz­ler von Deutsch­land war, kön­nen Sie mir dann sagen, wer der neunte Bun­des­kanz­ler von Deutsch­land war? Das mag Ihnen tri­vial erschei­nen, ist aber für LLMs alles andere als selbstverständlich.

In die­ser bril­lant ein­fa­chen Arbeit frag­ten die For­scher ChatGPT nach den Namen der Eltern von 1000 Pro­mi­nen­ten (zum Bei­spiel: „Wer ist die Mut­ter von Tom Cruise?“), wor­auf ChatGPT in 79 % der Fälle die rich­tige Ant­wort gab (in die­sem Fall „Mary Lee Pfeif­fer“). Die For­scher nutz­ten dann die Fra­gen, die GPT rich­tig beant­wor­tete, um die umge­kehrte Frage zu for­mu­lie­ren: „Wer ist der Sohn von Mary Lee Pfeif­fer?“. Obwohl für die Beant­wor­tung bei­der Fra­gen das­selbe Wis­sen erfor­der­lich ist, konnte GPT nur 33 % der Fra­gen rich­tig beantworten.

Woran liegt das? Erin­nern wir uns daran, dass GPT kein „Gedächt­nis“ oder eine „Daten­bank“ hat – alles, was es tun kann, ist, ein Wort in einem bestimm­ten Kon­text vor­her­zu­sa­gen. Da Mary Lee Pfeif­fer in Arti­keln häu­fi­ger als Mut­ter von Tom Cruise erwähnt wird als er als ihr Sohn – kann GPT die eine Rich­tung abru­fen und nicht die andere.

ChatGPT ver­gisst, dass Tom Cruise der Sohn von Mary Lee Pfeif­fer ist (Bil­der vom Autor)

Um dies zu ver­deut­li­chen, erstell­ten die For­scher einen Daten­satz mit erfun­de­nen Fak­ten der Struk­tur “ ist „, z. B. „Der erste Mensch, der den Mars betrat, ist Tyler Oakridge“. LLMs wur­den dann auf die­sem Daten­satz trai­niert und nach der Beschrei­bung befragt: „Wer ist der erste Mensch, der auf dem Mars spa­zie­ren ging?“ – hier war GPT‑3 mit 96 % Genau­ig­keit erfolgreich.

Aber bei der Frage nach dem Namen – „Wer ist Tyler Oakridge“ – erreichte GPT 0%. Dies mag auf den ers­ten Blick über­ra­schen, ent­spricht aber dem, was wir über über­wach­tes Ler­nen wis­sen: GPT kann diese Fak­ten nicht im Gedächt­nis spei­chern und spä­ter abru­fen, es kann nur ein Wort aus einer Folge von Wör­tern vor­her­sa­gen. Da es in allen Tex­ten den Namen gefolgt von der Beschrei­bung las und nicht umge­kehrt, hat es nie gelernt, Fak­ten über den Namen vor­her­zu­sa­gen. Offen­sicht­lich ist das Gedächt­nis, das nur durch das Trai­ning des auto­ma­ti­schen Ver­voll­stän­di­gens ent­wi­ckelt wird, sehr begrenzt.

Begrün­den oder Auf­sa­gen? Erfor­schung der Fähig­kei­ten und Gren­zen von Sprach­mo­del­len durch kon­tra­fak­ti­sche Aufgaben

Diese Arbeit ist viel­leicht die wich­tigste, die ich erfor­schen werde, denn sie zielt auf den Kern des Unter­schieds zwi­schen Aus­wen­dig­ler­nen und Intel­li­genz. Er besteht aus meh­re­ren Mini­ex­pe­ri­men­ten, die alle kon­tra­fak­ti­sche Auf­ga­ben ver­wen­den. Hier ist ein Bei­spiel für eine kon­tra­fak­ti­sche Aufgabe:

Nor­ma­ler­weise wird zur Basis 10 gerech­net (mit den Zah­len 0–9), aber es kön­nen auch andere Zah­len­sys­teme ver­wen­det wer­den, die nur eine Teil­menge die­ser Zah­len oder zusätz­li­che Zah­len verwenden.

Eine kon­tra­fak­ti­sche Auf­gabe könnte das Lösen von arith­me­ti­schen Fra­gen in einer ande­ren Basis als 10 sein: die abs­trak­ten Fähig­kei­ten, die zur Erfül­lung der Auf­gabe benö­tigt wer­den, sind iden­tisch, aber man fin­det wesent­lich mehr Bei­spiele für das Dezi­mal­sys­tem im Inter­net (und in den LLM-Trai­nings­sets). Als GPT‑4 ein­fa­che arith­me­ti­sche Fra­gen (27+62) zur Basis 10 gestellt wur­den, beant­wor­tete es 100% der Fra­gen rich­tig. Wurde es jedoch auf­ge­for­dert, mit der Basis 9 zu rech­nen, sank seine Erfolgs­quote auf 23 %. Dies zeigt, dass es ihm nicht gelun­gen ist, abs­trakte arith­me­ti­sche Fähig­kei­ten zu erler­nen, und dass es an ähn­li­che Bei­spiele gebun­den ist, wie es sie gese­hen hat.

Diese kon­tra­fak­ti­schen Auf­ga­ben wur­den für meh­rere andere Berei­che erstellt, wie Sie unten sehen können:

Die Leis­tung von GPT‑4 bei der Stan­dard­ver­sion ver­schie­de­ner Auf­ga­ben (blau) und den kon­tra­fak­ti­schen Gegen­stü­cken (orange). GPT‑4 schnei­det bei den kon­tra­fak­ti­schen Vari­an­ten im Ver­gleich zu den Stan­dard-Instan­zi­ie­run­gen der Auf­ga­ben durch­weg deut­lich schlech­ter ab. (Das Bild wurde freund­li­cher­weise von Zhaofeng Wu, einem der Autoren des Arti­kels, zur Ver­fü­gung gestellt)

Hier ist eine wei­tere kon­tra­fak­ti­sche Situa­tion: Python ver­wen­det eine auf Null basie­rende Num­me­rie­rung; dies ist jedoch nur eine Kon­ven­tion, und wir kön­nen leicht eine Pro­gram­mier­spra­che ent­wi­ckeln, die nur auf einer Zahl basiert. Das Schrei­ben von Code in einer ein­ba­si­gen Python-Vari­ante erfor­dert die glei­chen Fähig­kei­ten wie nor­ma­les Python, und jeder erfah­rene Pro­gram­mie­rer wäre in der Lage, sich schnell an die Ände­rung anzu­pas­sen. Nicht so bei GPT‑4: Es erzielte 82 % bei der Code­ge­nerie­rung für Python, aber nur 40 %, wenn es eine 1‑basierte Vari­ante ver­wen­den sollte. Bei der Code-Inter­pre­ta­tion (Vor­her­sage, was ein Stück Code tun würde) erreichte es 74 % für nor­ma­les Python und 25 % für die unüb­li­che Variante.

Aber wir müs­sen uns nicht auf ver­schie­dene Python-Ver­sio­nen ein­las­sen. Sogar in nor­ma­lem Python ver­sa­gen LLMs, wenn sie mit selt­sa­men Pro­gram­mier­auf­ga­ben kon­fron­tiert wer­den, die nicht im Inter­net zu fin­den sind, wie Filip Pie­niew­ski kürz­lich bei Gemini zeigte.

Beim Schach­spiel wurde GPT gebe­ten zu bewer­ten, ob eine Zug­folge legal ist oder nicht. Bei einer nor­ma­len Schach­par­tie konnte es die Recht­mä­ßig­keit eines Zuges in 88 % der Fälle rich­tig vor­her­sa­gen. Wenn jedoch die Aus­gangs­po­si­tio­nen der Läu­fer und Sprin­ger ver­tauscht wur­den, wur­den die Vor­her­sa­gen über die Recht­mä­ßig­keit der Züge völ­lig will­kür­lich, wäh­rend selbst ein uner­fah­re­ner mensch­li­cher Spie­ler in der Lage sein sollte, sich leicht an diese Ände­run­gen anzupassen.

Tat­säch­lich hat Jonas Pers­son gezeigt, dass man nicht ein­mal die Aus­gangs­stel­lun­gen ändern muss. Wenn man eine Schach­par­tie mit GPT beginnt und sehr unkon­ven­tio­nelle, aber legale Züge macht, kann es behaup­ten, dass diese ille­gal sind, weil es noch nie ähn­li­che Züge gese­hen hat. Wie Pers­son so schön bemerkt hat:

„Wenn sie weit genug fort­ge­schrit­ten ist, kann die reine Mus­ter­er­ken­nung das regel­ba­sierte, deduk­tive Den­ken nach­ah­men. Aber sie sind unter­schied­lich. Mit GPT‑4 Schach zu spie­len bedeu­tet, ein Potem­kin­sches Dorf zu betre­ten. Schlei­chen Sie sich von der Haupt­straße weg in eine Gasse – tun Sie etwas Uner­war­te­tes – und Sie erken­nen sofort, dass die beein­dru­ckend aus­se­hen­den Häu­ser alle auf­ge­stellte Figu­ren sind.“

Die­ser Befund ist für LLMs als all­ge­meine Intel­li­genz­tech­no­lo­gie äußerst bedenk­lich. Beim Lösen von Pro­ble­men geht es oft darum, neue Regeln oder Kon­zep­tua­li­sie­run­gen für ein Pro­blem zu fin­den: Ein Pro­gram­mie­rer kann eine Biblio­thek mit einer inno­va­ti­ven inter­nen Logik schrei­ben, ein Mathe­ma­ti­ker kann einen neuen Zweig der Mathe­ma­tik erfin­den oder ein Künst­ler kann neue künst­le­ri­sche Stile erfin­den – sie alle ver­ste­hen die Gren­zen eines aktu­el­len Para­dig­mas und schaf­fen dann Regeln für ein neues. Auch all­täg­li­chere Tätig­kei­ten erfor­dern diese Fle­xi­bi­li­tät: Wenn die Straße blo­ckiert ist, kann man vom mar­kier­ten Weg abwei­chen. Kann die GPT irgend­et­was davon leis­ten? Wenn es nicht in der Lage ist, kon­tra­fak­ti­sche Regeln kon­se­quent zu befol­gen, wenn es expli­zit dazu auf­ge­for­dert wird, könnte es dann von selbst „erken­nen“, dass eine Lösung für ein Pro­blem einen neuen Satz von Regeln, einen Bruch mit dem Stan­dard­pa­ra­digma, erfor­dert? Könnte eine Maschine, die auf der Erken­nung von Kor­re­la­tio­nen in Daten basiert, fle­xi­bel genug sein, um auf neue Situa­tio­nen zu reagieren?

Theory of Mind (ToM)

Unter Theory of Mind ver­steht man die Fähig­keit zu ver­ste­hen, dass andere Men­schen andere Über­zeu­gun­gen und Wün­sche haben kön­nen als man selbst – eine Fähig­keit, die in den ers­ten Jah­ren der kind­li­chen Ent­wick­lung fehlt. Eine Methode zur Über­prü­fung der Theory of Mind besteht darin, einem Kind eine Schach­tel mit der Auf­schrift „Scho­ko­lade“ zu geben, die in Wirk­lich­keit Blei­stifte ent­hält. Dann zei­gen wir dem Kind den wah­ren Inhalt der Schach­tel und fra­gen es: „Was würde dein Freund Jeremy den­ken, ist in der Schach­tel?“. Wenn das Kind noch keine Theory of Mind ent­wi­ckelt hat, wird es „Blei­stifte“ ant­wor­ten – da es sein Wis­sen über den Inhalt nicht von dem über die Scho­ko­lade tren­nen kann.

Diese Fähig­keit ist von ent­schei­den­der Bedeu­tung für das Ver­ständ­nis der Beweg­gründe eines Men­schen und damit auch für die Ent­wick­lung von AGI. Stel­len Sie sich vor, Sie haben einen Mehr­zweck­ro­bo­ter und geben ihm die Anwei­sung, „das Zim­mer zu rei­ni­gen“. Wäh­rend der Rei­ni­gung muss der Robo­ter meh­rere Ent­schei­dun­gen tref­fen: Ist das zer­knüllte Stück Papier wich­tig oder soll ich es weg­wer­fen? Sollte ich zuerst fra­gen? Im All­ge­mei­nen muss ein intel­li­gen­ter Agent meine Moti­va­tion und die Gren­zen mei­nes Wis­sens ver­ste­hen, damit er die Details der Aus­füh­rung kom­ple­xer Anfra­gen aus­fül­len kann.

Aus die­sem Grund hat eine neue For­schungs­ar­beit, die behaup­tet, dass Theory of Mind bei LLMs spon­tan ent­stan­den sein könnte, in der KI-Bran­che hohe Wel­len geschla­gen. In dem Arti­kel wurde eine Text­ver­sion der Blei­stift-Scho­ko­la­den-Prü­fung ver­wen­det, um GPT‑4 zu tes­ten, und es wurde fest­ge­stellt, dass es auf dem Niveau eines Sie­ben­jäh­ri­gen arbei­tet. Das mag auf den ers­ten Blick beein­dru­ckend erschei­nen, aber den­ken Sie an das Bei­spiel „IN73LL1G3NC3“: Die Trai­nings­da­ten für GPT kön­nen durch­aus Bei­spiele für diese Test­fra­gen ent­hal­ten. Es ist daher kein fai­rer Ver­gleich zu einem Kind, das den Test ohne jeg­li­ches Trai­ning auf ähn­li­che Fra­gen besteht. Wenn wir die ToM-Fähig­keit von GPT tes­ten wol­len, müs­sen wir eine neue Prü­fung erstel­len, von der wir sicher sein kön­nen, dass sie nicht in sei­nen Trai­nings­da­ten ent­hal­ten ist.

FAN­ToM: Ein Bench­mark für den Stress­test der maschi­nel­len Theory of Mind in Interaktionen

In die­sem Paper wird ein neuer Bench­mark für ToM vor­ge­stellt, der meh­rere Gesprä­che mit meh­re­ren Teil­neh­mern umfasst. Bei die­sen Gesprä­chen ver­las­sen einige der Teil­neh­mer für einige Zeit den Raum, wäh­rend die ande­ren Teil­neh­mer ihr Gespräch fort­set­zen. Dem LLM wer­den dann meh­rere Fra­gen zu der Frage gestellt, wer was weiß: Kennt Kai­ley die Rasse von Lin­das Hund? Wer weiß, wel­che Rasse es ist? Für wel­che Rasse würde David ihn hal­ten? Das LLM hat nur dann rich­tig geant­wor­tet, wenn seine Ant­wort auf alle Fra­gen, die sich auf die­selbe Infor­ma­tion bezie­hen, rich­tig war.

Dies kann eine ver­wir­rende Auf­gabe sein, so dass selbst Men­schen bei die­sem Test nur 87,5 % erreich­ten. Der GPT‑4 erzielte jedoch je nach GPT-Ver­sion ent­we­der 4,1 % oder 12,3 %, was kaum mit der Behaup­tung ver­ein­bar ist, dass der GPT ein ToM auf mensch­li­chem Niveau ent­wi­ckelt hat.

Ein Hin­weis zur Kon­strukt­va­li­di­tät psy­cho­me­tri­scher Tests

Es ist wich­tig, einen all­ge­mei­nen Hin­weis auf alle psy­cho­me­tri­schen Tests zu geben: Die Leute ver­wech­seln oft den Test mit der Qua­li­tät, die er zu mes­sen ver­sucht. Der Grund, warum wir uns für die SAT-Ergeb­nisse inter­es­sie­ren, ist, dass sie mit den Leis­tun­gen auf dem Col­lege kor­re­liert sind. Der Erfolg bei ToM-Prü­fun­gen bei Kin­dern steht in Zusam­men­hang mit ande­ren wert­vol­len Ver­hal­tens­wei­sen: dem Ver­ste­hen der Mimik einer Per­son, dem Erin­nern von Per­sön­lich­keits­merk­ma­len einer Per­son oder der Fähig­keit, einen Film zu sehen und die Beweg­gründe der Figu­ren zu ver­ste­hen. Wäh­rend diese Zusam­men­hänge zwi­schen den Tests und den Ver­hal­tens­wei­sen bei Men­schen nach­ge­wie­sen wur­den, gibt es kei­nen Grund anzu­neh­men, dass sie auch für LLMs gel­ten. Trotz der beein­dru­cken­den Ergeb­nisse beim SAT erziel­ten die GPT-Teil­neh­mer bei offe­nen Prü­fun­gen auf Col­lege-Niveau in Mathe­ma­tik, Che­mie und Phy­sik durch­schnitt­lich 28 %. Bis zum Beweis des Gegen­teils beweist das Bestehen eines Tests nichts ande­res als die Fähig­keit, die Test­fra­gen rich­tig zu beantworten.

Aber für ToM gibt es keine nen­nens­werte Kor­re­la­tion: ob LLMs einen ToM-Test bestehen oder nicht – sie kön­nen keine Gesichts­aus­drü­cke sehen, keine Filme anschauen oder sich sogar an eine Per­son und ihre Moti­va­tio­nen von einer Inter­ak­tion zur nächs­ten erin­nern. Da die Ver­hal­tens­wei­sen, an denen wir wirk­lich inter­es­siert sind, wenn wir ToM mes­sen, LLMs nicht zur Ver­fü­gung ste­hen, ist die Idee, dass LLMs Theory of Mind ent­wi­ckelt haben, nicht nur falsch, son­dern sie könnte auch bedeu­tungs­los sein (oder zumin­dest: erfor­dert eine neue Defi­ni­tion und ein neues Ver­ständ­nis des Begriffs).

Über die Pla­nungs­fä­hig­kei­ten gro­ßer Sprach­mo­delle – eine kri­ti­sche Untersuchung

Mit die­sem Expe­ri­ment wurde ver­sucht, die Pla­nungs­fä­hig­kei­ten von LLM zu tes­ten. Eine Bei­spiel­auf­gabe, die dem LLM gestellt wurde, besteht darin, far­bige Blö­cke in einer bestimm­ten Rei­hen­folge zu sta­peln, wobei ein „Aus­gangs­zu­stand“ der Blö­cke (in einer bestimm­ten Rei­hen­folge auf dem Tisch ange­ord­net) gege­ben ist. Dem LLM wird eine Liste von klar defi­nier­ten mög­li­chen Aktio­nen vor­ge­legt, zum Beispiel:

Action: pickup
Parameter: which object
Precondition: the object has nothing on it,
              the object is on-table,
              the hand is empty
Effect: object is in hand,
        the hand is not empty

Die Auf­gabe des LLM besteht darin, eine Liste von Aktio­nen fest­zu­le­gen, die zur Errei­chung des Ziels durch­ge­führt wer­den müssen.

Eine ähn­li­che Auf­gabe bestand darin, ein Paket von einer Adresse zu einer ande­ren zu schi­cken, wobei die ver­füg­ba­ren Aktio­nen LKW- und Flug­zeug­zu­stel­lung waren. Es han­delt sich hier­bei um rela­tiv ein­fa­che Pla­nungs­auf­ga­ben, bei denen nur eine Hand­voll mög­li­cher Aktio­nen zur Ver­fü­gung steht. Den­noch erzielte GPT‑4 12–35% für das Block­rät­sel und 5–14% für die Logis­tik­auf­gabe (abhän­gig von der Konfiguration).

Wenn die Namen der Aktio­nen durch zufäl­lige Wör­ter ersetzt wur­den (von „Abho­len“ bis „Angrei­fen“), sank der Erfolg von GPT auf 0–3 %, auch wenn die Defi­ni­tion jeder Aktion ähn­lich blieb. Mit ande­ren Wor­ten: GPT nutzte kein abs­trak­tes Den­ken, um diese Pro­bleme zu lösen, son­dern war auf die Seman­tik angewiesen.

Fazit: Sind LLMs der Weg zur AGI?

Die Defi­ni­tion von Intel­li­genz ist keine ein­fa­che Auf­gabe, aber ich würde argu­men­tie­ren, dass jede echte Intel­li­genz min­des­tens vier Ele­mente haben sollte:

  • Abs­trak­tion – die Fähig­keit, Objekte als Teil einer grö­ße­ren Kate­go­rie oder Regel zu erken­nen. Diese abs­trakte Dar­stel­lung der Welt kann als kogni­ti­ves „Welt­mo­dell“ bezeich­net wer­den. Z. B. das Ver­ständ­nis, dass ver­schie­dene Bil­der auf der Netz­haut sich auf die­selbe Per­son bezie­hen oder dass ein Schach­zug als Teil eines Regel­werks, das für jedes Schach­spiel gilt, legal ist.
  • Gedächt­nis – die Fähig­keit, Enti­tä­ten und Bezie­hun­gen zwi­schen Enti­tä­ten im Welt­mo­dell Attri­bute zuzu­ord­nen und diese im Laufe der Zeit zu aktua­li­sie­ren. Wenn man z. B. eine Per­son erkannt hat, kann man sich an wei­tere Attri­bute über sie oder ihre Bezie­hun­gen zu ande­ren Per­so­nen erinnern.
  • Schluss­fol­ge­run­gen und Infe­ren­zen – die Fähig­keit, das Welt­mo­dell zu nut­zen, um Schluss­fol­ge­run­gen über das Ver­hal­ten von Enti­tä­ten in einem neuen oder vor­ge­stell­ten Welt­zu­stand zu zie­hen. Z. B. die Fähig­keit, die Flug­bahn eines gewor­fe­nen Balls auf der Grund­lage der Eigen­schaf­ten die­ses Balls vor­her­zu­sa­gen oder das Ver­hal­ten einer Per­son auf der Grund­lage ihrer Eigen­schaf­ten vorherzusagen.
  • Pla­nung – die Fähig­keit, durch logi­sches Den­ken eine Reihe von Hand­lun­gen zu ent­wi­ckeln, um ein Ziel zu erreichen.

Vor einem Jahr hät­ten wir ana­ly­tisch ablei­ten kön­nen, dass es unwahr­schein­lich ist, dass diese Ele­mente in LLMs auf­tau­chen, basie­rend auf ihrer Archi­tek­tur, aber heute brau­chen wir diese ana­ly­ti­sche Ablei­tung nicht mehr, da wir die empi­ri­schen Daten haben, die zei­gen, dass LLMs bei allen oben genann­ten Ele­men­ten schlecht abschnei­den. Sie sind nichts ande­res als sta­tis­ti­sche Auto­ver­voll­stän­di­gungs­mo­delle, die eine leis­tungs­starke Methode zur Mus­ter­er­ken­nung ver­wen­den. Eine ein­ge­hen­dere Ana­lyse der Ele­mente der Intel­li­genz, die dem aktu­el­len Para­digma des maschi­nel­len Ler­nens feh­len, fin­den Sie in Gary Mar­cus‘ berühm­tem Arti­kel „Deep Lear­ning is hit­ting a wall“.

Als ChatGPT zum ers­ten Mal auf den Markt kam, sagte mir ein Freund, dass sich die Kon­ver­sa­tion mit ChatGPT wie Magie anfühlt. Aber genau wie ein Zau­be­rer, der eine Per­son in zwei Hälf­ten sägt, ist es wich­tig, die Leis­tung zu über­prü­fen und in ver­schie­de­nen Umge­bun­gen zu tes­ten, bevor wir behaup­ten, die Säge­tech­nik könne die Chir­ur­gie revo­lu­tio­nie­ren. Der „Trick“, den die LLMs anwen­den, ist die unüber­schau­bare Menge an Tex­ten, auf die sie trai­niert sind und die es ihnen ermög­licht, auf viele Fra­gen ver­nünf­tige Ant­wor­ten zu geben. Aber wenn sie auf unbe­kann­tem Ter­rain getes­tet wer­den, schwin­den ihre Fähigkeiten.

Wird GPT‑5 bes­ser sein? Wenn man davon aus­geht, dass es wei­ter­hin die GPT-Archi­tek­tur ver­wen­det und nur auf mehr Daten und mit mehr Para­me­tern trai­niert wird, gibt es wenig Grund zur Annahme, dass es Abs­trak­ti­ons- oder Denk­fä­hig­kei­ten ent­wi­ckeln wird. Fran­çois Chol­let, KI-For­scher bei Google, schrieb: „Es ist fas­zi­nie­rend, dass die Gren­zen des Deep Lear­ning seit 2017 unver­än­dert geblie­ben sind. Die­sel­ben Pro­bleme, die­sel­ben Feh­ler­modi, kein Fortschritt.“

Da in letz­ter Zeit viel über die Regu­lie­rung von KI und die poten­zi­el­len Gefah­ren von LLMs dis­ku­tiert wurde, fühle ich mich ver­pflich­tet, klar­zu­stel­len, dass das Feh­len ech­ter Intel­li­genz nicht bedeu­tet, dass von LLMs kein poten­zi­el­les Risiko aus­geht. Es sollte offen­sicht­lich sein, dass die Mensch­heit über meh­rere Tech­no­lo­gien ver­fügt, die kei­nen Anspruch auf Intel­li­genz erhe­ben und den­noch der Gesell­schaft auf ver­schie­dene Weise Scha­den zufü­gen kön­nen, und dass sie kon­trol­liert wer­den sollten.

Durch unser neues Ver­ständ­nis der Gren­zen von LLMs kön­nen wir genauer vor­her­sa­gen, woher der Scha­den kom­men könnte: Da Intel­li­genz nicht unmit­tel­bar bevor­zu­ste­hen scheint, soll­ten uns Sky­net und die Matrix keine Sor­gen berei­ten. Was uns Sor­gen machen könnte, sind Akti­vi­tä­ten, die nur die schnelle Erstel­lung von echt aus­se­hen­den Tex­ten erfor­dern, viel­leicht Phis­hing und die Ver­brei­tung von Fake News. Ob LLMs für diese Auf­ga­ben wirk­lich ein stö­ren­des Werk­zeug dar­stel­len, ist jedoch eine andere Frage.

Wie die Zukunft der AGI aus­se­hen wird, ist unge­wiss. Viel­leicht wer­den einige der Tech­ni­ken des maschi­nel­len Ler­nens, die in LLMs ver­wen­det wer­den, in einem zukünf­ti­gen intel­li­gen­ten künst­li­chen Agen­ten ein­ge­setzt wer­den, viel­leicht aber auch nicht. Es besteht jedoch kaum ein Zwei­fel daran, dass noch wich­tige Teile des Puz­zles feh­len, bevor die für die Intel­li­genz von Maschi­nen erfor­der­li­che Fle­xi­bi­li­tät erreicht wer­den kann.

Quelle: medium.com