Das Gefährlichste an ChatGPT sind nicht die falschen Antworten. Es sind die, die richtig klingen.
Über einen Selbstversuch mit menschlichen Schädeln, Patienten mit Hosentaschen-Expertise und die Frage, warum OpenAI seinen eigenen KI-Detektor nach 6 Monaten sang- und klanglos abschaltete.
Heute Nacht um eins las ich in einer wissenschaftlichen Zeitschrift, dass die Nutzung von ChatGPT dumm macht. Gerlich (2025) stellte in einem peer-reviewten Beitrag in der Fachzeitschrift Societies eine signifikant negative Korrelation zwischen häufiger KI-Werkzeugnutzung und kritischem Denken fest, vermittelt durch kognitives Offloading, gemessen an 666 Teilnehmenden verschiedener Altersgruppen und Bildungshintergründe. Das ist sauber gemessen und in einem angesehenen Journal publiziert. Wer das Wort Offloading zum ersten Mal hört, fragt sich vielleicht, ob das auch auf ihn zutrifft. Und aus Erfahrung sage ich: bedingt ja.
Bedingt. Dieser Vorbehalt ist das Interessanteste an dem ganzen Befund, und er ist gleichzeitig das, was in der Weitergabe solcher Studien konsequent verlorengeht, weil ein Vorbehalt sich schlecht teilt und ein absoluter Satz gut teilt und weil die Vereinfachung im Weg der Weitergabe immer in dieselbe Richtung verläuft, nämlich in die der Übertreibung. Gerlich stellte dabei auch fest, dass ältere Teilnehmende und solche mit höherem Bildungsabschluss deutlich resistenter gegenüber dem Offloading-Effekt waren, also dass das Problem nicht die Technologie ist, sondern das Verhältnis, das jemand zu ihr entwickelt. Wer ChatGPT wie eine Orakelmaschine bedient, die man füttert und deren Ausgabe man akzeptiert, betreibt eine andere kognitive Tätigkeit als jemand, der das Werkzeug als Beschleuniger für Gedanken verwendet, die er selbst entwickelt. Den Unterschied zwischen diesen beiden Nutzertypen habe ich an anderer Stelle auf rauscher.xyz mit dem Begriff Otto Sapiens belegt, dem ich dort ein eigenes Kapitel gewidmet habe. Gerlichs Befund, dass höherer Bildungsabschluss als Schutzfaktor wirkt, überrascht mich dabei nicht. Bildung vermittelt nicht primär Inhalte, sondern das Werkzeug, Inhalte zu hinterfragen, und genau dieses Werkzeug ist es, das im Umgang mit einem LLM den Unterschied zwischen einem nützlichen Ergebnis und einem gefährlichen macht. Mit Technologiefeindlichkeit hat das nichts zu tun. Es ist eine Aussage über Epistemologie, die schon lange vor ChatGPT galt und die ChatGPT nur sichtbarer macht, weil das System die Konsequenzen falschen Vertrauens schneller, flächendeckender und mit weniger Reibungsverlust produziert als jede vorangegangene Technologie.
Der Nutzer, der nicht fragt
Otto Sapiens hinterfragt die Ausgabe nicht. Das liegt in den meisten Fällen nicht an Bosheit oder Faulheit im vulgären Sinne, sondern an einem grundlegend fehlerhaften Modell davon, was ein Large Language Model eigentlich ist und wie es funktioniert. Die meisten Menschen stellen sich ein LLM als eine sehr kluge Maschine vor, die aus einem riesigen Wissensvorrat Antworten abruft, so wie man früher in der Bibliothek ein Buch aus dem Regal zog, nachschlug und darin nach Informationen suchte. Das ist eine bequeme Analogie, und sie stimmt nicht. Die Konsequenzen reichen über den Einzelnen hinaus, weil jemand, der einer falschen Antwort traut, ein persönliches Problem hat, während eine Gesellschaft, die das systematisch tut, ein strukturelles bekommt.
Ein LLM generiert Text, der auf statistischen Wahrscheinlichkeiten beruht: auf dem, was im Trainingsdatensatz nach einer bestimmten Eingabe typischerweise folgte. Es antwortet immer. Es hat keine Funktion für das Schweigen, keine Möglichkeit, die eigene Unsicherheit zu signalisieren, keinen Mechanismus, der sagt: diese Frage übersteigt meine Datenlage, ich antworte nicht. Stattdessen produziert es Text, der klingt wie eine Antwort, auch wenn inhaltlich keine Grundlage für eine da ist, auch wenn die Frage falsch gestellt wurde, auch wenn die Prämisse nicht stimmt. Eine Designschwäche im üblichen Sinne ist das nicht. Es ist eine Folge des Architekturprinzips, das das System überhaupt erst so beeindruckend hat werden lassen. Die Stärke ist zugleich das Risiko.
Das Problem liegt deshalb meistens beim Prompt. Ein zu vager, zu kurzer, zu kontextfreier Prompt führt zu einer Ausgabe, die dem Prompt entspricht, ebenso ungenau und ebenso kontextlos, nur eben flüssig. Diese Flüssigkeit wird als Kompetenz gelesen, weil flüssige Sprache in der menschlichen Kommunikation tatsächlich ein Indiz für Kompetenz ist. Bei Maschinen ist sie keines. Bei Maschinen ist Flüssigkeit der Standardzustand, vollständig unabhängig vom Inhalt. Wer einen brauchbaren Output will, muss verstehen, was er fragt, wie er fragt, was das System braucht, um auf einer Grundlage zu antworten, die einer Überprüfung standhält. Wer das nicht mitbringt, bekommt Text. Nicht Antwort. Text.
Otto Sapiens gibt einen Prompt ein. Er bekommt eine Ausgabe. Er liest die Ausgabe. Die Ausgabe klingt gut. Er schickt sie weiter, ohne eine einzige Sekunde innezuhalten. Ich übertreibe nicht.
Der Mann mit dem Schädel und dem iPhone
Stellen wir uns eine Szene vor, die keine Phantasie ist. Ein Mensch sitzt in seinem Wohnzimmer. Auf dem Tisch vor ihm steht ein Aschenbecher, halb voll, daneben liegt eine zerknitterte Zigarettenpackung, dazwischen die Chipstüte vom Vortag und eine Fernbedienung, die seit Wochen niemand gesucht hat, weil der Fernseher ohnehin läuft und niemand etwas ändert, was läuft. Auf diesem Tisch liegt ein menschlicher Schädel. Kein Fund aus einer universitären Ausgrabung, kein beschriftetes Präparat aus einem wissenschaftlichen Institut, kein Stück aus einem Naturkundemuseum mit dokumentierter Herkunft. Ein Schädel, aus welchem Kontext auch immer, in einem Wohnzimmer mit Aschenbecher und Chipstüte. Der Mensch hält sein Smartphone in der Hand. Er fotografiert. Und dann schreibt er in ChatGPT: Analysiere diesen Schädel. Schätze Alter, Geschlecht und Herkunft.
Das ist keine Randfigur. Das passiert. Regelmäßig. Schädelsammler, manche mit ehrlichem wissenschaftlichem Interesse und einer legalen Sammlung, andere einfach aus Faszination für das Makabre, stellen solche Anfragen. Studenten stellen sie, weil sie meinen, das sei eine Abkürzung durch die Lernkurve. Menschen, die irgendwo einen Knochen gefunden haben, stellen sie, weil sie wissen wollen, ob sie zur Polizei müssen oder ob es ein Tierknochen ist und die Sache vergessen werden kann. Und die Ausgabe, die sie erhalten, klingt in vielen Fällen präzise, kompetent, mit korrekter Terminologie, manchmal mit Quellenangaben, die in dieser Form nicht verifizierbar sind, weil das LLM auch Quellenangaben generiert, ohne dass dahinter ein geprüftes Zitat stehen muss.
Ich habe diesen Test selbst gemacht. Mehrfach, mit verschiedenen Fotos, verschiedenen Prompts, verschiedenen Schädeln aus meiner beruflichen Praxis, also Vergleichsmaterial, zu dem ich die korrekte Antwort kenne. Das Ergebnis war ernüchternd in einer Weise, die mich kurz innehalten ließ. Der Großteil der Antworten war falsch, nicht im Bereich der vertretbaren Unsicherheit, die jede forensische Einschätzung unter realen Bedingungen begleitet, sondern falsch in der Kategorie, die einen erfahrenen Untersucher sofort zum Nachfragen bringt. In 1 Fall war die Schätzung annähernd korrekt, aber auch dort auf eine Weise unzureichend, die für einen forensischen oder wissenschaftlichen Zweck nicht ansatzweise akzeptabel wäre. Das Wort, das mir einfiel, war schockierend. Nicht im Hinblick auf das LLM, das keine Erwartungen hat und keine Erwartungen erfüllen muss. Schockierend für mich, weil ich weiß, was diese Ausgaben auslösen können, wenn sie gelesen und geglaubt werden.
Was ein Foto nicht zeigen kann
Fotografie transportiert Licht, das an einer Oberfläche zu einem bestimmten Zeitpunkt reflektiert wurde, und sie tut das aus einer einzigen Perspektive, mit einem einzigen Brennpunkt, unter einer einzigen Lichtsituation. Was sie nicht transportiert, ist alles, was nicht Licht ist: keine Haptik, kein Gewicht, keine Textur jenseits des optischen Eindrucks, keine dritte Dimension in vollem Umfang, keine zeitliche Geschichte des Objekts, keine chemische Information, keinen Geruch, keine mechanische Resistenz. In der forensischen Bildanalyse, die ein Teil meiner Arbeit ist, lernt man früh, dass ein Foto ein Indiz ist und niemals ein Befund. Es ist der Ausgangspunkt einer Frage. Nicht ihre Antwort. Diese Unterscheidung, zwischen dem Bild einer Sache und der Sache selbst, ist die grundlegendste, die es in der forensischen Analyse gibt. Und genau diese Unterscheidung interessiert ChatGPT nicht, weil das System keine Unterscheidung zwischen einem Foto und dem macht, was fotografiert wurde. Es analysiert Pixel und nennt das Ergebnis Befund.
Zurück zum Schädel. Eine Altersschätzung am Schädel ist keine Ablesung einer Anzeige, bei der man hinschaut und eine Zahl liest. Die Schädelnähte, also die Suturen zwischen den einzelnen Knochen des Schädeldachs, verknöchern in einer Sequenz, die grundsätzlich Rückschlüsse auf das Lebensalter erlaubt, aber diese Sequenz ist variabel, populationsabhängig und beeinflusst durch Ernährung über die Lebensspanne, Krankheitsgeschichte, mechanische Belastung und genetische Faktoren, die kein 2-D-Foto aus einem Wohnzimmer auch nur andeutet. Die Geschlechtsbestimmung stützt sich auf eine Kombination morphoskopischer Merkmale, die einzeln wenig bedeuten und erst in der Zusammenschau und im Kontext einer Normvarianz diagnostisch werden: die Ausprägung der Supraorbitalwülste, also der Knochenvorsprünge über den Augenhöhlen, die bei Männern in den meisten Populationen robuster und prominenter ausgebildet sind, die Größe und Form des Processus mastoideus hinter dem Ohr, die Prominenz des Kinnknochens und die Form der Mandibula insgesamt, die Breite und Robustheit der Jochbeinbögen, die Schärfe der Orbitaränder, der Winkel der Stirn und die Gesamtgröße und Robustheit des Schädels als Ganzes. Jedes dieser Merkmale muss im Kontext einer Normvarianz bewertet werden, die sich je nach Herkunftspopulation erheblich verschiebt, weil sexueller Dimorphismus populationsspezifisch ist und ein Merkmal, das in einer nordeuropäischen Referenzpopulation als typisch männlich gilt, in einer anderen Population innerhalb des weiblichen Normbereichs liegen kann. Eine Scoping-Review, die zwischen 2020 und 2024 insgesamt 73 Studien zu Schädelanalysemethoden auswertete, macht genau dieses Spannungsfeld sichtbar, nämlich dass moderne bildgebende Verfahren und KI-Algorithmen zwar erhebliche Fortschritte in kontrollierten Laborbedingungen zeigen, aber unter den unstrukturierten Bedingungen eines privaten Wohnzimmers und eines Handyfotos ohne Maßstab, ohne Kalibrierung, ohne Kontextinformation nicht greifen (PLOS ONE, 2024).
Hinzu kommt die Taphonomie, ein Begriff, der beschreibt, was mit einem Körper nach dem Tod passiert: bodenchemische Prozesse, Feuchtigkeit, Trockenheit, Tierverbiss, mechanische Einwirkung während der Liegezeit, all das verändert die Morphologie des Knochens in einer Weise, die eine naive Analyse systematisch in die Irre führt. Der Schädel zeigt seinen Zustand zum Zeitpunkt der Aufnahme. Er zeigt nicht die Geschichte, die dahin geführt hat. Und ohne diese Geschichte ist die Morphologie oft nicht korrekt zu interpretieren.
Keinen Forensiker, keinen Archäologen, keinen Humanbiologen durch eine auf allgemeine Textquellen trainierte Chatmaschine zu ersetzen, ist keine Frage der Technologiekritik. Das ist eine Aussage über das, was ein Werkzeug leisten kann und was es strukturell nicht kann. Der Unterschied ist wichtig, weil er nicht durch zukünftige Versionen des Modells verschwinden wird, sondern weil er im Wesen der Aufgabe liegt.
Die Praxis und der Screenshot
Ein Zimmer mit einem Schädel auf dem Tisch. In diesem Zimmer befindet sich niemand, der ausgebildet ist, ihn zu lesen. Das ist das Extrembeispiel. Das Alltagsbeispiel ist milder, häufiger, und es berührt einen Bereich, der mir aus unmittelbarer Nähe vertraut ist.
Menschen kommen in die Praxis meiner Frau mit dem Ergebnis einer Suchanfrage auf dem Smartphone. Manchmal ist es ein Screenshot aus ChatGPT, manchmal ein Artikel einer Webseite mit einem Autorennamen, den niemand kennt, manchmal eine Diagnose, die sie sich selbst gestellt haben, und sie kommen nicht, um zu fragen, ob sie recht haben. Sie kommen, um erklärt zu bekommen, was ihnen fehlt, und um bestätigt zu werden. Die Medizinerin, die ihnen gegenübersitzt, hat 30 Jahre Berufserfahrung, tägliche Erfahrung mit tausenden Patienten in allen Variationen, klinischen Verläufen, Ausnahmen und Ausnahmen von den Ausnahmen, und sie sitzt da mit dem Foto vom Smartphone oder dem Ausdruck aus dem Drucker, und sie muss erklären, warum das, was da steht, in diesem konkreten Fall nicht stimmt, warum das Bild, das jemand von seiner Erkrankung mitgebracht hat, und das Bild, das die Untersuchung zeigt, nicht dasselbe sind.
Das ist eine neue Kategorie von Zeitverschwendung, und sie wächst mit jedem Monat, in dem mehr Menschen ein Sprachmodell für eine Wissensdatenbank halten.
Und hier muss ich einen Strich ziehen. Die Medizinerinnen und Mediziner, die ich kenne, setzen KI ein. Radiologinnen und Radiologen. Labormediziner. Pathologen. Sie setzen KI ein, weil sie Werkzeuge verwenden, die auf Millionen relevanter Datensätze trainiert wurden, klinisch validiert sind, regulatorisch zugelassen sind und in definierten Aufgaben überprüfte Leistung erbringen. Diese Systeme sind keine Large Language Models wie ChatGPT. Ein LLM, das man fragt, ob ein Hautfleck Melanom sein könnte, und ein auf Dermatoskopie-Bildern trainiertes, klinisch validiertes Klassifikationssystem sind so ähnlich wie ein Küchenmesser und ein Skalpell: beides hat eine Klinge, und die Ähnlichkeit endet dort. Die Anwendung des einen an der Stelle des anderen ist kein Qualitätsproblem. Es ist eine grundlegend andere Handlung.
Eine Studie an der Trakya Universität (2025) hat das Leistungsgefälle direkt gemessen, für die zahnärztliche Altersschätzung anhand von Panoramaröntgenaufnahmen lag die Reproduzierbarkeit von ChatGPT mit einem Intraklassenkorrelationskoeffizienten von 0,703 erheblich unter der etablierten Methode, die 0,960 erreichte. Weniger abstrakt formuliert: ChatGPT gibt bei derselben Aufgabe, mit identischem Material, in wiederholten Durchläufen unterschiedliche Ergebnisse, während eine validierte Methode das nicht tut. Für klinische und forensische Anwendungen ist das nicht vertretbar.
Ich habe selbst ein datenschutzkonformes Werkzeug für medizinische Fachpraxen entwickelt, das so konstruiert ist, dass es außerhalb definierter Aufgaben nicht antwortet, weil die Begrenzung des Systems die eigentliche Sicherheitsfunktion ist. Das ist nicht die Philosophie von ChatGPT. ChatGPT antwortet immer, auch wenn es besser schwiege.
Was das Modell nicht sieht
Laborwerte. An ihnen zeigt sich das ganze Problem auf engstem Raum.
Ein Mensch sitzt beim Arzt. Er ist Mitte 40, wiegt 105 Kilo, davon ein erheblicher Teil Muskelmasse, er hat viele Jahre intensiv Bodybuilding betrieben und tut es noch. Der Hämoglobinwert in seinem Blutbild liegt erhöht. Auf dem Papier: ein Befund. Im Algorithmus: ein Alarmsignal. Der Arzt schaut ihn an. Er sieht, wer vor ihm sitzt. Er weiß, dass erhöhter Hämoglobin bei einem Sportler mit entsprechendem Körperbau und entsprechend hohem Sauerstoffverbrauch ein physiologischer Normalbefund ist, der ohne diesen Kontext wie Polyzythämie aussieht und mit diesem Kontext wie ein ordentlicher Athlet. Die glomeruläre Filtrationsrate, ein Maß für die Nierenfunktion, verhält sich ähnlich, weil die Referenztabellen an einer Normalpopulation kalibriert sind und ein Mensch mit ungewöhnlichem Körperbau systematisch außerhalb dieser Kalibrierung liegt, ohne dass etwas pathologisch wäre. Der Arzt sieht das, weil er nachfragt, weil er beobachtet, weil er einen Kontext hat, den kein Laborblatt und kein Algorithmus mitliefert.
Oder jemand, der täglich erhebliche Mengen Alkohol konsumiert und sich dauerhaft schlecht ernährt. Der Arzt weiß das, weil er nachgefragt hat, weil er Zeichen sieht, weil er Erfahrung mit Patienten hat, die ihren Konsum gegenüber der Praxis beschönigen. Das LLM fragt nicht nach. Es wertet aus, was es bekommt. Und schweigt zu allem, was es nicht bekommt, ohne dieses Schweigen zu kennzeichnen.
In China haben die Menschen begonnen, aus diesem Potenzial operative Schlüsse zu ziehen, die logisch sind und gleichzeitig einen Schauer hinterlassen. Der Versicherer Ping An betreibt in Shanghai Gesundheitsautomaten, an denen Blutdruck gemessen, Blut abgenommen und Befunde ausgewertet werden, automatisiert, ohne ärztliche Präsenz, im Rahmen eines Pilotprojekts im Stadtviertel Changning (Abele, 2024). Die Tsinghua-Universität hat mit dem sogenannten Agent Hospital ein vollständig KI-betriebenes virtuelles Krankenhaus entwickelt. Das ist keine Spekulation über die Zukunft. Das ist 2025 gelebte Infrastruktur, und während der Algorithmus bei der Auswertung der 500 häufigsten Laborwert-Diagnose-Kombinationen wahrscheinlich zuverlässiger ist als ein übermüdeter Nachtdienstarzt unter Zeitdruck, fehlt ihm der Blick für den Kontext, den 30 Jahre klinische Erfahrung erst produzieren. Das ist kein Argument gegen KI in der Medizin. Es ist ein Argument gegen KI an der Stelle der Medizin.
Das Gutachten, das ich nicht geschrieben habe
Sachverständigengutachten werden mir zur Prüfung vorgelegt. Das gehört zu meiner Tätigkeit. Ich lese sie. Und ich erkenne inzwischen auf einen Blick, wenn ein Gutachten mit Unterstützung eines LLM entstanden ist, ohne dass der Verfasser das deklariert hat.
Mein Gehirn macht das automatisch, weil es darauf trainiert ist, Muster zu erkennen, ein Leben lang, in einem Maß, das mir selbst erst in der Rückschau vollständig klar geworden ist. Menschen, die so denken, finden sich in ihrer Umgebung oft als Eigenarten wahrgenommen. Ich finde mich in meiner Arbeit als nützlich. Woran ich erkenne, was ich erkenne? Zu gleichförmige Satzlängen, ein mittleres Band ohne echten Ausreißer nach oben oder unten. Zu saubere Übergänge zwischen Absätzen, Bindeglieder, die tragen, ohne je zu überraschen, logische Verkettungen ohne Reibung, ohne Abschweifung, ohne jedes Innehalten. Bestimmte Marker, die in solchen Texten wiederkehren wie ein Signet: der Gedankenstrich, wo ein Komma genügt hätte, die fast gleich langen Sätze über Seiten hinweg, der kurze Bestätigungssatz, der den vorigen nur mit anderen Worten spiegelt, die makellose Naht zwischen je zwei Absätzen, der Schluss, der plötzlich von der Sache weg auf die ganze Menschheit zoomt. Alles sauber, alles schlüssig, alles ohne die leichte Unsymmetrie, die ein denkender Mensch hinterlässt. Und dann gibt es etwas Technisches, das ich als forensisches Indiz unter mehreren betrachte: unsichtbare Unicode-Zeichen, Zero-Width Spaces, Zero-Width Joiners, schmale geschützte Leerzeichen, Zeichen, die im Fließtext unsichtbar sind, aber in der Zeichenebene eines Dokuments erscheinen und die sich beim Kopieren in eine Textverarbeitung oder ein Content-Management-System mitschleppen. Ob diese Zeichen ein absichtliches Watermarking sind, ist unter Fachleuten umstritten, und Originality.ai (2025) hält diese Interpretation für unwahrscheinlich, weil eine so leicht zu entfernende Markierung forensisch kaum Gewicht hätte. Als Indiz in der Gesamtschau sind sie trotzdem relevant, weil sie dort erscheinen, wo sie ohne LLM-Beteiligung typischerweise nicht wären. Indizien arbeiten nicht allein. Sie arbeiten in Kombination.
Damit komme ich zu einer Anekdote, die ich hier erzähle, weil sie die ganze Diskussion auf eine Pointe bringt, die ich mir nicht hätte ausdenken können.
Vor etwa einem Jahr wurde mir in einem Verfahren vorgeworfen, ich würde ChatGPT verwenden, um meine Gutachten zu schreiben. Ich begegnete diesem Vorwurf mit einem Lächeln, das für alle Beteiligten Anlass zur Beunruhigung hätte sein müssen, denn es war das Lächeln von jemandem, der die Situation bereits vollständig verstanden hat, bevor die andere Seite das Argument zu Ende formuliert hatte. Ich gab dem betreffenden Anwalt 3 meiner Gutachten, alle aus einer Zeit, in der ChatGPT noch keine Weboberfläche hatte und großflächige generative KI noch kein Werkzeug war, das jemand in seiner täglichen Arbeit einsetzte, und bat ihn, seine KI-Erkennungssoftware darüberlaufen zu lassen. Das Ergebnis: meine Texte wurden als sehr wahrscheinlich KI-generiert klassifiziert. Ich schreibe so seit über 20 Jahren. Analytisch, strukturiert, ohne die kleinen sprachlichen Unfälle, die manche Detektoren als Zeichen menschlichen Schreibens werten, ohne die Redundanzen, die Umwege, ohne die kleinen Inkonsistenzen, die entstehen, wenn jemand einen Gedanken entwickelt und zwischendurch den Faden verliert und ihn wieder aufnimmt. Ein gelernter Stil ist das nicht. Es ist das, was entsteht, wenn ein Gehirn über Jahrzehnte täglich analytische Texte produziert und dabei seinen eigenen hochoptimierten Ausdrucksmechanismus entwickelt, und es ist, wie ich in anderen Zusammenhängen erkläre, eine Eigenschaft, mit der ich mein ganzes Leben vertraut war: Muster erkennen, schneller als andere, auf den ersten Blick, in einem Maß, das mir selbst lange nicht bewusst war. Dem neurotypischen Nutzer bin ich in dieser Disziplin strukturell voraus. Selbstlob ist das nicht. Es ist eine nüchterne Feststellung, die illustriert, was das eigentliche Problem mit KI-Detektoren ist: Sie messen statistische Eigenschaften, und Menschen mit analytischen, hochstrukturierten Schreibstilen fallen systematisch in diese Messung, auch wenn sie nie ein LLM bedient haben.
Das Problem ist strukturell. OpenAI weiß das.
Im Januar 2023 startete OpenAI einen Classifier, der KI-generierten Text von menschlichem unterscheiden sollte. Das Werkzeug erkannte in der Evaluation korrekt 26 Prozent des KI-generierten Texts als solchen und identifizierte menschlichen Text in 9 Prozent der Fälle fälschlich als KI-generiert. Am 20. Juli 2023 wurde es abgeschaltet. OpenAI schrieb das in ihrem eigenen Blog, mit der Formulierung, es sei aufgrund seiner niedrigen Genauigkeitsrate nicht mehr verfügbar. Und dann, der Satz, den man sich merken sollte: It is impossible to reliably detect all AI-written text. Die Firma, die ChatGPT baut, hat das geschrieben. Nicht ein Kritiker. Nicht eine Behörde. Die Firma selbst. 6 Monate nach dem Start. Kommentarlos. Das ist das ehrlichste Statement, das aus dem Silicon Valley über dieses Thema gekommen ist, und es verschwand in einer Fußnote.
Sam Altman, der Chef von OpenAI, gab öffentlich zu, dass er beim Lesen von Beiträgen auf Reddit inzwischen nicht mehr sicher ist, ob die Texte von echten Menschen oder von Bots stammen, weil echte Menschen begonnen haben, sich die Sprachgewohnheiten der Maschinen anzueignen (Fulgham, 2025). Das ist keine externe Systemkritik. Das ist eine Selbstbeschreibung eines Mannes, der das System miterschaffen hat. Die Firma, die das Problem gebaut hat, beschreibt das Problem in einem einzigen Tweet, ohne irgendeinen Lösungsansatz auch nur anzudeuten.
Polemische Vorwarnung, für jene, die es angeht
Wer ein Foto eines Schädels macht und ChatGPT fragt, ob dieser männlich oder weiblich ist und wie alt er wohl war, der betreibt eine Tätigkeit, die ich als forensisch wertlos und gleichzeitig als gefährlich klassifiziere, weil gefährliche Gewissheit schlechter ist als ehrliche Unwissenheit. Wer das Ergebnis dann als Grundlage für eine Entscheidung nimmt, ob er einen Fund melden soll oder nicht, wer damit zur Polizei geht oder eben nicht geht, hat ein Problem geschaffen, das er ohne das LLM nicht gehabt hätte. Das ist kein Vorwurf. Das ist eine Beschreibung.
Wer mit einem ChatGPT-Screenshot in eine Arztpraxis kommt und der Person gegenüber, die 30 Jahre Berufserfahrung hat, erklärt, was er hat, der verwechselt Werkzeug mit Expertise. Werkzeuge ersetzen keine Expertise. Sie beschleunigen sie, wenn sie von jemandem bedient werden, der die Expertise hat, sie einzusetzen. Ein Hammer in den Händen eines Chirurgen bleibt ein Hammer, auch wenn er aus Titan ist und einem führenden Schweizer Hersteller medizinischer Geräte entstammt.
Und wer Sachverständigengutachten mit Hilfe eines LLM verfasst und das nicht deklariert, betreibt etwas, das ich in keiner diplomatischen Formulierung als akzeptabel bezeichnen kann. Sachverständigengutachten haben Konsequenzen für Menschenschicksale, für Freiheitsentzug, für Sorgerechtsentscheidungen, für die Frage, ob jemand für sein Handeln haftbar gemacht wird oder nicht. Diese Texte verlangen eine verantwortliche Person dahinter, eine Person, die für die Aussagen einsteht, nicht eine Ausgabe, die flüssig klingt und deshalb vertrauenswürdig wirkt.
Jeder Sachverständige, der KI nutzt ohne es zu deklarieren, sollte wissen, dass ich diese Texte erkenne. Nicht weil ich besonders klug wäre, sondern weil mein Gehirn genau das sein Leben lang gemacht hat, was diese Texte verrät: Muster erkennen. Und wer glaubt, dass ein besserer Prompt das Problem löst, unterschätzt das Grundproblem: Das Muster sitzt tiefer als der Prompt.
Die Maschine, die immer antwortet, und was ich dagegen baue
Ich arbeite gerade an einer Software, die es ermöglicht, Texte systematisch auf LLM-Beteiligung zu analysieren, zuverlässiger als es die derzeit verfügbaren Werkzeuge tun, ohne dabei in die Falle zu tappen, analytisch strukturierten menschlichen Schreibstil als KI zu klassifizieren. Die erste Version wird in den nächsten 4 bis 8 Wochen vorliegen und zunächst kostenlos zugänglich sein. Und ich sage hier explizit, was dieses Werkzeug nicht kann: Wahrheit produzieren. Es kann Indizien identifizieren, Muster, statistische Auffälligkeiten, die in Kombination auf LLM-Beteiligung hindeuten. Das ist forensische Arbeit. Forensische Arbeit ist keine Gewissheit. Sie ist Indizienanalyse. Wer das verwechselt, hat das grundlegende Prinzip nicht verstanden, und das gilt für KI-Detektoren genauso wie für jeden anderen forensischen Befund. Ich weiß das aus eigener Erfahrung, weil meine eigenen Texte, wenn man sie durch einen schlechten Detektor jagt, als verdächtig markiert werden.
Das Foto, der Schädel und die Frage, die bleibt
Ich lege die Zeitschrift weg. Nicht weil die Studie uninteressant wäre, sondern weil die interessante Frage nicht lautet, ob ChatGPT dumm macht, sondern wen es dumm macht und warum und unter welchen Bedingungen die Antwort ein klares Ja ist. Die Antwort fängt nicht bei ChatGPT an, sondern bei dem, was ein Nutzer mitbringt: Neugierde, Bereitschaft, Ausgaben zu hinterfragen, Fähigkeit zu erkennen, wo ein Werkzeug endet und wo Expertise beginnt. Gerlich (2025) hat das in seiner Studie empirisch belegt: Bildung schützt, Erfahrung schützt, kritisches Denken schützt. Nicht gegen die Technologie, sondern gegen den unkritischen Umgang mit ihr.
Es gibt eine Kategorie von Nutzern, die diesen Text wahrscheinlich nicht braucht, weil sie die Mechanik bereits verstehen, und eine andere Kategorie, die ihn braucht, aber nicht lesen wird, weil sie der Überzeugung ist, dass ChatGPT schon recht haben wird. Das ist das eigentliche Problem, und es ist nicht durch Aufklärungsartikel lösbar. Lösbar ist es durch Erfahrung, und Erfahrung entsteht nur über Zeit und über eigene Fehler. Diese Fehler werden in den nächsten Jahren gemacht werden, manche harmlos, manche mit ernsten Folgen. Ich schreibe diesen Text nicht mit der Illusion, das zu verhindern. Ich schreibe ihn, damit jemand, der hinterher fragt, wo er hätte gewarnt werden können, eine Antwort hat.
Was ich in über 25 Jahren Arbeit als Sachverständiger gelernt habe, und was mir kein Modell beibringt, ist folgendes: Die gefährlichste Antwort ist nicht die offensichtlich falsche. Die gefährlichste Antwort ist die, die in 9 von 10 Kontexten richtig wäre und in dem 1 Kontext, in dem sie es nicht ist, fatale Folgen hat, weil niemand nachgefragt hat. Dieses 1 in 10 ist das, worüber Sachverständige nachts nachdenken. Das LLM denkt nicht.
Jene, die vor dem Bildschirm sitzen und sich fragen, ob das auf sie zutrifft: wahrscheinlich ein bisschen. Das trifft auf fast jeden zu, auf mich eingeschlossen, in bestimmten Kontexten. Die Frage ist, ob man nach dem Lesen einer Ausgabe kurz innehält und fragt: woher weiß dieses Modell das, was setzt diese Antwort voraus, ist das Vorausgesetzte korrekt, und vor allem: wer trägt die Konsequenzen, wenn es falsch ist?
Wer das tut, ist kein Otto Sapiens. Wer ein Foto macht, im Wohnzimmer, zwischen Aschenbecher und Chipstüte, und die Antwort glaubt: schon eher. Die Leberkässemmel, die einem dabei aus der Hand fallen würde, wenn man wüsste, was dabei schiefgehen kann, sei hiermit angekündigt. Den Rest erklärt die nächste Meldung, die uns über einen solchen Fall erreicht. Und sie wird uns erreichen.
Quellen
- Gerlich, M. (2025). AI tools in society: Impacts on cognitive offloading and the future of critical thinking. Societies, 15(1), 6. https://doi.org/10.3390/soc15010006
- OpenAI. (2023). New AI classifier for indicating AI-written text. OpenAI Blog. https://openai.com/index/new-ai-classifier-for-indicating-ai-written-text/
- Trakya University, Department of Dentomaxillofacial Radiology. (2025). Artificial intelligence versus human expertise: Reliability of ChatGPT and the London atlas for dental age estimation using panoramic radiographs. PubMed Central, PMC12751685. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC12751685/
- PLOS ONE. (2024). Sex estimation techniques based on skulls in forensic anthropology: A scoping review. https://doi.org/10.1371/journal.pone.0311762
- Abele, C. (2024). Healthcare: China setzt auf künstliche Intelligenz. Germany Trade & Invest. https://hub.tutool.io/healthcare-china-setzt-auf-kuenstliche-intelligenz/
- Fulgham, D. (2025). Sam Altman says people are starting to talk like AI, making some human interactions "feel very fake." Fortune. https://www.aol.com/finance/sam-altman-says-people-starting-161307531.html
- Tsinghua University Institute for AI Industry Research. (2024). Agent Hospital: A simulacrum of hospital with evolvable medical agents. Global Times / SCMP. https://www.scmp.com/tech/tech-trends/article/3289015/tsinghua-university-incubated-start-widen-test-virtual-hospital-ai-doctors
- Originality.ai. (2025). Invisible text detector & remover. https://originality.ai/blog/invisible-text-detector-remover