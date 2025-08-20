Aktuell ist das Thema Künstliche Intelligenz in aller Munde. Und, klar: Es ist durchaus beeindruckend, was die neuen Computerprogramme können. Die Möglichkeiten sind schier unerschöpflich. Jedenfalls auf den ersten Blick – denn wenn man erst mal im Umgang mit der KI vertraut ist, stößt man eben doch immer wieder auf Probleme, die nicht zufriedenstellend gelöst werden können. Das führt unweigerlich zu der Frage: Ist die Künstliche Intelligenz wirklich “intelligent”? Und wenn ja: Wie intelligent genau? Schon bei der menschlichen Intelligenz ist diese Frage alles andere als einfach. Wie unterscheidet man zwischen normalbegabten und hochbegabten Menschen?

Nehmen wir einmal an, die Intelligenzverteilung sähe so aus: In diesem Fall wäre es sehr einfach. Es gibt eine große Gruppe der Normalbegabten und nur eine kleine Gruppe der Hochbegabten. Zwischen ihnen gibt es keine Überschneidung. Man muss nicht Künstlich eine Trennlinie zwischen beiden ziehen, die Trennlinie ist offensichtlich vorhanden. In der Realität aber gibt es nur eine Verteilung und einen völlig fließenden Übergang zwischen den Gruppen. Meist zählen Wissenschaftler die oberen 2 Prozent, also alle Menschen mit einem Mindest-IQ von 130, zu den Hochbegabten; gelegentlich wurden allerdings auch die oberen 5 Prozent oder das oberste eine Prozent miteingeschlossen. Es gibt keinen Grund, warum das eine Kriterium objektiver als das andere sein sollte. Tatsächlich ist es eine simple Konvention. Viele Berechnungen lassen sich einfacher durchführen, wenn man sich auf die am häufigsten verwendete Definition einigt.

Das klügste und das dümmste Kind

Diese Frage ist aber wichtig, wenn wir erfassen wollen, wie intelligent die Künstliche Intelligenz ist. Denn auch hier stellt sich die Frage, wie genau man die Intelligenz nun misst und zudem ab wann man es mit einer „echten“ Intelligenz zu tun hat. Viele Leute tun KI als nicht allzu beeindruckend ab und meinen, dass diese ja nicht allzu bahnbrechend sei und zudem nicht einmal wirklich sprechen könne, sondern nur mit hoher Wahrscheinlichkeit das nächste Wort berechne.

Wenn das alles aber nicht so beeindruckend ist, warum wurden solche Systeme dann nicht schon früher entwickelt? Und wer kann erklären, was das menschliche Gehirn beim Sprechen anders macht, als mit hoher Wahrscheinlichkeit das folgende Wort zu berechnen? Natürlich stimmt es, dass KI-Systeme bis zu einem gewissen Punkt Intelligenz nur simulieren, aber nicht über Intelligenz verfügen. Wir alle erinnern uns wohl an das klügste und an das dümmste Kind in unserer Schulklasse. Wahrscheinlich gab es aber auch den Blender, der im Wesentlichen nur das nachplapperte, was das klügste Kind sagte. Aber so sehr wir den Blender auch gehasst haben mögen, müssen wir ehrlicherweise zugeben, dass er wohl doch nicht ganz dumm war. Intelligenz vorzutäuschen erfordert eben selbst schon ein Mindestmaß an Intelligenz.

Von der Simulation zur Entwicklung

Dementsprechend konnte GPT-3 (die erste Version, die öffentlich wahrgenommen wurde) im Jahr 2020 sehr gut vortäuschen. Denn obwohl nur eine relativ geringe Grundintelligenz vorhanden war, konnte das System eben doch auf einen riesigen Wissensschatz zurückgreifen, mit dem es trainiert worden war. Aber ganz ohne Intelligenz geht es nicht. Ein wenig so, als würde der Blender aus unserem Beispiel allen klügsten Kindern aus allen Schulklassen der Welt nachplappern. Dennoch zeigte GPT-3 Anzeichen von Intelligenz. Denn die Wikipedia, die ja ebenfalls im Datensatz enthalten war, hätte von allein keine Intelligenz gezeigt. Ich erinnere mich noch gut, dass ich in der 5. Klasse nur simulierte, Englisch zu sprechen. Soll heißen: Ich musste jeden Satz im Kopf zusammensetzen, indem ich für jedes einzelne Wort im Gedächtnis kramte und die Grammatikregeln befolgte. In der 10. Klasse konnte ich dann tatsächlich Englisch sprechen. Ich musste also nicht mehr grübeln, sondern konnte einfach drauflos plappern. Wirklich gut wurde mein Englisch dann allerdings erst im Erwachsenenalter.

Man könnte nun annehmen, dass Englisch simulieren und Englisch sprechen zwei völlig verschiedene Dinge sind. Betrachtet man nur den Start- und den Endpunkt, scheint das auch zu stimmen. Wenn ich allerdings alle Klassenstufen zwischen 5 und 10 betrachte, kann ich nicht den einzelnen Punkt nennen, an dem mein Gehirn von einem Modus in den anderen Modus schaltete. Es war ein fließender Übergang, und mit der Zeit konnte ich die Grammatikregeln so mühelos anwenden, dass dies völlig unterbewusst geschah. Zwischen den beiden Varianten bestand also letztlich nur ein gradueller und kein binärer Unterschied. Und dementsprechend wird auch ein System, das die Intelligenz nur simuliert, mit der Zeit irgendwann tatsächlich Intelligenz zeigen, solange man es immer weiter optimiert. John Searle hat Gedanken wie den obigen unter dem Namen „Chinesisches Zimmer“ zusammengefasst.

Verbesserung der Systeme erfordert präzisere Begriffe

Über Künstliche Intelligenz wurde auf theoretischer Ebene schon Mitte des 20. Jahrhunderts diskutiert. Doch solange die Künstliche Intelligenz noch weit entfernt war und eher ein hypothetisches Konstrukt blieb, musste man das Problem noch nicht differenziert betrachten. Je besser die Systeme wurden, desto größer wurde auch die Notwendigkeit, sich auf eine präzise Terminologie zu einigen. Relativ einfach zu verstehen ist die Artificial Narrow Intelligence (ANI), also die „enge“ Intelligenz. Damit ist gemeint, dass ein Programm nur einen spezifischen Aufgabentyp erledigen kann. Zum Beispiel wenn die Urlaubsfotos automatisch verschiedenen Alben zugeordnet werden, je nachdem, ob man auf ihnen eher Menschen oder eher die Landschaft erkennen kann. Diese Form der Intelligenz ist seit mehreren Jahren etabliert und somit völlig normal, aber eben auch ein bisschen langweilig geworden. Sie spielt in der Debatte keine große Rolle mehr.

Die Artificial General Intelligence (AGI) soll eine generelle Intelligenz sein, eine also, die alles so gut kann wie der Mensch. Manche Experten meinen, dass sie innerhalb der nächsten zehn Jahre erreicht werden kann, wobei einige sogar allerhöchstens nur noch zwei Jahre einkalkulieren. Die Definition einer AGI ist vor allem deswegen schwierig, weil bisherige Systeme wie GPT, oder auch die Konkurrenz wie Gemini, Grok und Claude, zum Teil deutlich besser als Menschen Texte schreiben und mathematische Formeln berechnen, dann aber wieder an lächerlich einfachen Aufgaben scheitern.

Beliebige Steigerungsformen

Die höchste Stufe schließlich ist die Artificial Super Intelligence (ASI). Diese soll die Grenzen menschlicher Intelligenz vollständig sprengen. Auch hierbei sind beliebige Steigerungsformen denkbar. Die erste Stufe der AGI mag womöglich Formeln entwickeln, auf die nicht einmal Albert Einstein gekommen wäre. Die nächste Stufe könnte dann schon innerhalb von Tagen einen wissenschaftlichen Fortschritt generieren, den Albert Einstein nicht mal dann verstehen würde, wenn er sein ganzes Leben diesem einen Thema widmet. Und wer weiß ob nicht auch diese Intelligenzstufe geradezu dumm erscheint im Vergleich zur darauffolgenden Version.

Gibt es so etwas wie einen IQ-Test auch für die Künstliche Intelligenz? Natürlich – auch wenn man hierbei, wie auch sonst im Technologie-Bereich, von Benchmarks spricht.

In den USA sind Multiple-Choice-Tests weit verbreitet und diese eignen sich natürlich auch, um die Fähigkeiten einer KI zu testen: Man kreuzt das richtige Kästchen an oder nicht. Man muss eine Antwort nicht erst bewerten und interpretieren, um Punkte zu vergeben. Also lässt man die KI einfach dieselben Tests absolvieren, die zum Beispiel auch angehende Juristen und Mediziner bestehen müssen. Was für ein Intelligenzzuwachs lässt sich dann über die letzten Jahre beobachten? Tatsächlich sind hier drei verschiedene Geschwindigkeiten beobachtbar.

Ausgereizte Testverfahren

1. Der Intelligenzzuwachs verlangsamt sich: Nehmen wir an, eine KI kann in einem Multiple-Choice-Test 80 von 100 Fragen richtig beantworten, dann wird sie auch bei einer Verdoppelung ihrer Leistung nicht 160 Fragen richtig beantworten können, weil das Maximum eben bei 100 liegt. Nun sind aber nicht alle Fragen gleich schwierig. Die 20 ungelösten Fragen sind also deutlich schwieriger. Vielleicht würde eine doppelt so gute KI also nur den Sprung auf 90 richtige Antworten schaffen. Wenn wir eine Verlangsamung des Zuwachses in den Testwerten sehen, muss dies also nicht der Wahrheit entsprechen. Vielmehr ist das Testverfahren langsam ausgereizt und stößt an seine Grenzen.

2. Der Intelligenzzuwachs verläuft linear: Angenommen, eine KI kann 40 von 100 Fragen richtig beantworten, wird sie bei einer Verdoppelung ihrer Leistung 80 Fragen richtig beantworten. In diesem Fall entsprechen Leistungszuwachs und Testresultate exakt einander.

3. Der Intelligenzzuwachs beschleunigt sich: Wieder andere Benchmarks zeigen einen exponentiellen Zuwachs. Beispielsweise kann eine KI über einen immer längeren Zeitraum eigenständig arbeiten. Bei einem exponentiellen Zuwachs hieße dies etwa: im ersten Jahr 10 Sekunden; im zweiten Jahr 20 Sekunden; im dritten Jahr 40 Sekunden; im vierten Jahr 80 Sekunden, im fünften Jahr 160 Sekunden. Das heißt aber nicht, dass sich bei einem solchen Zuwachs Aufgaben in gleichem Maße besser bewältigen lassen. Vielleicht würden wir in der Punktzahl eines Tests einen linearen Zuwachs in den Ergebnissen sehen, weil die Aufgaben ihrerseits exponentiell schwieriger werden.

Nicht nachplappern, sondern Lösungen finden

Wie verläuft nun die tatsächliche Entwicklung der Intelligenz? Das lässt sich nicht objektiv sagen, solange es keine objektive Definition von Intelligenz gibt und man sich stattdessen auf die Anzahl richtig gelöster Aufgaben stützt. Sehr wahrscheinlich verläuft die Entwicklung aber ansatzweise linear. Wenn sie aber minimal mehr in eines der beiden anderen Szenarien ausschlägt, dürfte sich dieser Effekt in wenigen Jahren potenzieren. Entweder kommt es dann zu einem Stillstand der Entwicklung oder zu einem sprungartigen Fortschritt. Offensichtlich braucht man neue Benchmarks – denn die oben genannten Tests für Mediziner sind gleich doppelt zu einfach: Zum einen ist dort die Punktzahl ausgeschöpft, es lässt sich also keine höhere Intelligenz mehr messen; und zum anderen lässt sich mit diesen Tests ohnehin keine echte Intelligenz beweisen, weil man die Antworten der Fachliteratur entnehmen kann, auf die die KI ja Zugriff hat. Es ist so wie beim oben erwähnten Blender, der einfach verdammt gut im Nachplappern ist.

Aber es gibt eine Lösung: Um die Fähigkeiten einer KI adäquat zu erfassen, wurden führende Mathematiker gebeten, besonders schwierige Aufgaben zu entwickeln. Die Aufgaben sind noch nicht auf dem Niveau von Nobelpreisträgern, aber zumindest auf dem Niveau von Harvard-Doktoranden. Für Normalsterbliche sind sie also unlösbar. Die Lösungswege für diese Aufgaben werden unter Verschluss gehalten. In diesem Fall kann die KI also nicht „nachplappern“, sondern muss von sich aus eine Lösung finden. Aktuell können die besten Modelle etwa ein Viertel aller Fragen richtig beantworten, dieser Benchmark wird also noch für eine gewisse Zeit gut einen Anstieg der Intelligenz messen können.

Versuchsaufbau nach Turing

Alle Argumente deuten darauf hin, dass die KI-Systeme mittlerweile eine tatsächliche Intelligenz zeigen, auch wenn sie noch nicht wirklich menschenähnlich agieren. Dies führt uns zu Moravecs Paradox. Dieses besagt, dass Computer relativ leicht relativ schwierige Aufgaben lösen können, aber umgekehrt an relativ einfachen Aufgaben verzweifeln. Schon lange können Computer tausende Berechnungen gleichzeitig durchführen – aber ein normales Gespräch können sie noch nicht führen. Zum Teil ist die KI bereits übermenschlich, aber zum Teil immer noch geradezu hilflos. Wie aber ließe sich eine menschenähnliche Intelligenz am ehesten nachweisen? Diese Frage beantwortete der britische Mathematiker Alan Turing auf beeindruckend einfache und gleichzeitig geniale Weise: Er meinte, dass ein Computer dann menschenähnliche Intelligenz zeigt, wenn er in einem Versuchsaufbau per Textnachricht mit einem Menschen kommuniziert, der hinterher nicht mehr mit Sicherheit sagen kann, ob er nun mit einem Menschen oder einem Computer kommuniziert hat. (Tatsächlich war Turings Gedanke noch weit komplexer, er wurde allerdings nach seinem Tod von anderen Wissenschaftlern stark vereinfacht.)

Das erste Mal ließ sich Turings Test mit dem Chatbot Eliza durchführen, der 1966 von Joseph Weizenbaum programmiert wurde. Tatsächlich fielen viele Leute darauf rein; aus heutiger Sicht unverständlich: Denn Eliza kann simple Ja/Nein-Fragen (“Ist Wasser nass?”) oder Entweder/Oder-Fragen (“Ist der Himmel grün oder blau?”) nicht beantworten. Kluge Leute durchschauten den Chatbot damals schnell. Wer aber in den 60er Jahren lebte und von WhatsApp & Co. nichts wusste, der konnte eben tatsächlich schnell getäuscht werden. Im Vergleich zu Eliza sind GPT-5, Gemini oder Grok natürlich meilenweit besser. Einfache Fragen können sie mühelos beantworten. Vielleicht sogar zu mühelos. Denn man kann die heutigen Chatbots beliebig ausfragen und sie wissen beinahe alles. Spätestens daran würde man wohl den Computer erkennen. Bei einem Turing-Test müsste die KI sich ihrer Situation bewusst sein und sich absichtlich etwas „dümmer“ machen, um nicht sofort aufzufliegen.

Täuschend echt

Im Frühling sorgte eine Studie für Aufsehen, laut der der Turing-Test erstmals bestanden wurde. Schaut man sich die reinen Erfolgsraten an, stimmt das sogar. Liest man dann etwas weiter, stellt man fest, dass der Turing-Test natürlich nicht bestanden wurde. Denn es wurden mehrere Beschränkungen eingebaut, die man im Sport wohl als „Doping“ bezeichnen würde. Zum einen gab es ein Zeitfenster von fünf Minuten mit einer einprogrammierten Verzögerung, sodass die durchschnittliche Kommunikation nur insgesamt acht Textnachrichten enthielt. Das ist schlicht zu wenig, um verlässliche Aussagen zu treffen. Zudem wurde der KI vorher ausdrücklich erklärt, wie sie sich im Turing-Test zu verhalten habe, um nicht aufzufallen. Die reine Anweisung, sich einfach “menschlich” zu verhalten und die KI dann selbst herausfinden zu lassen, was das konkret bedeutet, hätte nicht gereicht.

Aber am wichtigsten: Es gab eine Moderation, um anstößige Inhalte herauszufiltern. Denn wie viele User bereits wissen: Inhalte, die in Richtung Gewalt, Pornographie oder einer unerwünschten politischen Meinung gehen, werden meist mit dem Verweis auf die Richtlinien abgelehnt. Daran würde man schnell erkennen, dass man es mit einer Maschine zu tun hat. Heißt das nun, dass der Turing-Test auf absehbare Zeit nicht lösbar ist? Nein! Denn schließlich könnte ja der menschliche Versuchsteilnehmer eine gleichartige Botschaft mit Verweis auf die Richtlinien verfassen. Als Turing seinen Test ersann, handelte es sich noch um ein Gedankenexperiment. Mittlerweile ist es aber zum Experiment geworden. Turing hatte sich nicht auf einen Zeitrahmen festgelegt, weil dies eben noch nicht nötig war. Aber es ist klar, dass er wohl eher an fünf Stunden als an fünf Minuten dachte. Auch dürfte Turing überrascht sein, dass mittlerweile eine täuschend echte Stimme generiert werden kann. Er hatte jedenfalls nur an eine reine Kommunikation per Text gedacht. Und dank des politischen Filters muss sich nicht nur die KI wie ein Mensch, sondern auch der Mensch wie die KI verhalten.

Verbesserung durch Lernen

Man mag eine Lücke in Turingsversuchsaufbau sehen. Denn was, wenn eine KI zwar perfekt ein menschliches Gespräch simulieren kann, aber in allen anderen Bereichen komplett scheitert? Doch diese Gefahr besteht nicht. Die heutigen KI-Systeme können auch zeichnen, musizieren, rechnen, programmieren und vieles mehr. Bis der Turing-Test bestanden ist, werden auch diese Facetten noch mächtiger werden. Damit bestätigt sich ein Befund, der auch auf die menschliche Intelligenz zutrifft. Dort nimmt man einen Generalfaktor des IQ an. Sprich: Wer in einem Bereich intelligent ist, ist es mit hoher Wahrscheinlichkeit auch in einem anderen. Sobald die KI den Turing-Test besteht, dürfte man es also mit hoher Wahrscheinlichkeit mit einer AGI zu tun haben.

Aber was ist mit der ASI? Wenn man diese so definiert, dass sie einen wissenschaftlichen Fortschritt hervorbringt, der bislang undenkbar war, dann ist sie bereits erreicht. Schon 2017 konnte das Modell AlphaGo von DeepMind den weltbesten Go-Spieler bezwingen. Go gilt als „chinesisches Schach“. Das Brettspiel hat zwar weniger Spielregeln als Schach aber ein etwa sechsfach größeres Spielfeld (8 x 8 versus 19 x 19). Daher ist die Zahl der möglichen Spielzüge ungleich höher. Durch reines Bruteforcing (also Durchprobieren aller Kombinationen bei hoher Rechenleistung) lässt sich Go nicht gewinnen. Doch AlphaGo gelang dieses Kunststück; es entwarf sogar Spielzüge, die bislang noch nie von menschlichen Spielern ausgeführt wurden. Die KI hatte das Spiel dadurch gelernt, dass es immer wieder Matches gegen sich selbst spielte – und nicht, indem es mit möglichst vielen realen Partien trainiert wurde.

Keine klare Trennlinie

Im Jahr darauf stellte DeepMind dann AlphaFold vor, das die Proteinfaltung revolutionierte: In den knapp 50 Jahren zuvor war es der Wissenschaft mühsam gelungen, etwa 200.000 Proteine zu entschlüsseln. Dank AlphaFold stieg diese Zahl binnen weniger Jahren auf etwa 200 Millionen an. In einem Zehntel der Zeit wurden also 1000 Mal mal mehr Proteine entschlüsselt, wobei darunter natürlich deutlich komplexere Proteine als in den Jahren zuvor enthalten waren. Die Bedeutung für die Biochemie und die Anwendungsmöglichkeiten, wie zum Beispiel der Medikamentenentwicklung, sind nicht zu unterschätzen. DeepMind-Chef Demis Hassabis erhielt im letzten Jahr den Nobelpreis für Chemie. Üblicherweise vergehen für einen Nobelpreis oft mehrere Jahre, weil das Ergebnis erst unabhängig überprüft werden muss oder weil sich erst im zeitlichen Abstand zeigt, ob eine neue Theorie auch in der Praxis anwendbar ist.

Auch wenn also klar ist, dass die KI bereits jetzt in einigen Bereichen geradezu übermenschlich ist, stellt sich wieder das oben geschilderte Problem, dass in einem fließenden Übergang keine klare Trennlinie gezogen werden kann. Es gäbe allerdings eine solche Unterscheidung: Experten vermuten, dass eine ausreichend clevere Künstliche Intelligenz sich selbst verbessern kann. Dies ist, wenn auch in sehr geringem Maße, bereits jetzt der Fall. Entscheidend wäre jedoch der Zeitpunkt, ab dem sich eine Intelligenz selbst ohne menschliche Hilfe weiterentwickeln kann. Vielleicht zeigt sie zu diesem Zeitpunkt noch keine generell übermenschliche Intelligenz. Aber spätestens ab dann wird sie unaufhaltsam darauf hinsteuern. Dies wäre ein klares Entweder/Oder-Kriterium .

Ab wann ist es Superintelligenz?

Und was ist, wenn AGI und ASI identisch sind? Das ist natürlich eine Definitionsfrage. Nimmt man an, dass die ASI zehnmal intelligenter als die AGI sein muss, dann sind sie natürlich nicht identisch. Wenn die KI einmal den Turing-Test besteht, kann sie als AGI gelten. Aber schon jetzt sind die verschiedenen KI-Modelle in einzelnen Bereichen dem Menschen weit überlegen. So können sie in Sekundenschnelle ein Werk im Stil eines berühmten Künstlers erstellen, für das dieser Wochen oder sogar Monate gebraucht hätte. Schon jetzt ist die KI, was diese und andere Belange angeht, dem Menschen um den Faktor 10.000 überlegen. Wie viel leistungsstärker wäre eine AGI als die bisherigen Modelle? Das lässt sich nicht sicher sagen. Aber selbst wenn sie nur zehn Mal leistungsstärker als die jetzigen Versionen wäre, wäre sie damit zum Beispiel bei der Bilderzeugung 100.000 mal stärker als der Mensch.

Vielleicht werden KI-Modelle komplizierte mathematische Beweise eher mit Bravour absolvieren als den Turing-Test. Damit wäre dann aus menschlicher Perspektive die Unterscheidung zwischen AGI und ASI hinfällig. Denn der einzelne Mensch wäre nicht mehr in der Lage einen Leistungsunterschied überhaupt noch zu bewerten. Vielleicht wird die KI aber für sich selbst eine Definition aufstellen, ab wann sie sich selbst als ASI einstuft. Wahrscheinlich ist es aber eher noch einfacher. Potter Stewart, Richter am Obersten Gerichtshof der USA, stolperte einmal über die Frage, wie genau man denn obszönes Material juristisch definieren solle, und kam zu keiner klaren Antwort. Schließlich meinte er dann: „I know it when I see it“, also etwa: „Ich erkenne es, wenn ich es sehe.“ Analog dazu könnte man sagen: Wenn eine Superintelligenz einmal erreicht ist, wird sie derart offensichtlich sein, dass jede weitere Definition überflüssig ist.