Mythos hat angeblich die NSA geknackt. Der eigentliche Skandal steht woanders.
Wie eine virale Karte aus einem genehmigten Sicherheitstest einen Cyberangriff machte, warum die wirklich gefährlichen Modelle gar nicht von Anthropic oder OpenAI kommen, und was ich sehe, wenn ich mir die Server deutscher Arztpraxen nur von außen ansehe.
Auf meinem Bildschirm liegt eine Karte aus einem dieser KI-Newschannels. Dramatische Streichmusik, ein Vier-Sterne-General im Vollornat in der einen Ecke, das Anthropic-Logo in der anderen, dazwischen ein Mann mit Brille und Mikrofon, der aussieht, als erkläre er gerade das Ende der Welt. Darüber in fetten Versalien: Mythos habe in Stunden fast jedes klassifizierte System der NSA gehackt, und genau deshalb habe die Regierung es abgeschaltet. 640 Likes. 248 mal weitergereicht. Die Kommentarspalte ein Chor aus Untergang.
Ich arbeite seit Jahrzehnten mit Beweisen, und das hat mir genau eine Reflexbewegung antrainiert, bevor ich irgendetwas glaube. Ich frage, woher die Behauptung kommt. Nicht, ob sie sich gut anfühlt. Woher sie kommt.
Die Antwort ist unbequem für alle Beteiligten. Sie ist unbequem für den, der die Karte gebaut hat, weil die Schlagzeile in dieser Form falsch ist. Sie ist unbequem für jeden, der sich nach der Korrektur beruhigt zurücklehnt, weil das, was wirklich passiert ist, schlimmer ist als die Schlagzeile. Bleiben wir kurz bei der Karte, dann gehen wir tiefer.
Was die Karte verschweigt
Am 11. Juni sprach Senator Mark Warner in einer Anhörung. Sein Thema waren verpflichtende, unabhängige Sicherheitstests für die stärksten KI-Modelle, bevor sie auf den Markt dürfen. Als Beispiel führte er General Joshua Rudd an, der gleichzeitig die NSA und das Cyber Command des Pentagon leitet. Rudd habe ihm berichtet, Anthropics Modell Mythos sei in fast alle klassifizierten Systeme eingedrungen, nicht in Wochen, sondern in Stunden. Der Economist druckte den Satz am 14. Juni. Gut eine Woche später war er viral, sauber aus jedem Kontext geschält und umgetauft in eine Bestätigung, die NSA sei gehackt worden.
Sie wurde nicht gehackt. Es war ein Red-Team-Test, von der NSA selbst beauftragt. Die Behörde ließ Mythos gegen die eigenen Systeme laufen, mit hoher Wahrscheinlichkeit gegen Nachbauten der geheimen Umgebungen, und das Modell fand und verkettete Schwachstellen in einem Tempo, das ein menschliches Team nie erreicht. Das ist ein gewaltiger Unterschied. Ein Werkzeug, das im eigenen Auftrag die eigenen Mauern abklopft, hat niemanden überfallen. Es hat einen Befund geliefert.
Der Journalist, der die Zeile geschrieben hatte, ruderte am 21. Juni selbst zurück. Man dürfe das nicht wörtlich nehmen, schrieb er, der Befund habe davon abgehangen, dass Mythos zusammen mit anderen Werkzeugen unter sehr bestimmten Bedingungen lief, und es sei sein Fehler gewesen, die Einordnung wegzulassen. Eine ehrliche Korrektur. Sie kam nur leider Tage nach dem viralen Beben und erreichte einen Bruchteil der Reichweite.
Und Warners eigentliche Pointe war fast das Gegenteil der Schlagzeile. Er sagte sinngemäß, zum Glück sei es Anthropic gewesen, eine Firma, die ihr Modell vor der Freigabe durch harte Tests jagt. Sein Angriff galt allen, die Modellsicherheit dem guten Willen der Hersteller überlassen wollen, nach dem Motto, die werden schon selbst aufpassen. Ein Senator, der dem Himmel dafür dankt, dass das digitale Brecheisen ausgerechnet der höflichen Firma gehörte. Man muss sich das auf der Zunge zergehen lassen.
Die drei Geschichten, die zu einer wurden
Einen Tag nach der Anhörung kam die Sperre, und hier wird es regulatorisch interessant. Am 12. Juni schickte das US-Handelsministerium um 17:21 Uhr Ortszeit eine Exportkontroll-Anweisung. Es war das erste Mal, dass die USA eine solche Kontrolle direkt auf ein KI-Modell legten, nicht auf Chips, nicht auf Hardware, sondern auf das Modell selbst. Verboten wurde der Zugriff für alle ausländischen Staatsbürger, ausdrücklich auch für Anthropics eigene Angestellte ohne US-Pass. Anthropic konnte seine Nutzer nicht schnell genug nach Nationalität sortieren und nahm Fable 5 und Mythos 5 weltweit vom Netz. Mit 90 Minuten Vorlauf. Jedes andere Modell blieb online, auch Opus 4.8.
Anthropics eigene Darstellung klingt deutlich kleiner als die Schlagzeile. Der Auslöser sei ein enger, nicht universeller Jailbreak gewesen, im Kern die Bitte, eine Codebasis zu lesen und gefundene Fehler zu beheben. Das habe ein paar bereits bekannte, kleinere Schwachstellen zutage gefördert, und denselben Trick könne man auch auf andere öffentlich verfügbare Modelle anwenden, etwa auf OpenAIs GPT-5.5, das keinerlei vergleichbaren Beschränkungen unterliegt.
Damit stehen drei Geschichten nebeneinander, und keine deckt die andere. Anthropic erzählt von einem harmlosen Jailbreak. Warner erzählt vom Fähigkeitsschock bei der NSA. Und in der Fachpresse kursiert eine dritte Spur, ein Streit um den Zugang ausländischer Partner mit Nähe zu China. Drei verschiedene Dinge, am selben Tag, ineinander verkeilt. Das Internet hat sie zu einer einzigen, knackigen Lüge verschmolzen, weil eine Lüge sich leichter teilt als drei komplizierte Wahrheiten.
Der Streit reicht ohnehin weiter zurück, als die virale Karte ahnen lässt. Schon vor der Sperre hatte das Pentagon Anthropic zum Risiko für die eigene Lieferkette erklärt, ein Etikett, das man sonst feindlichen Staaten anheftet, und plötzlich mussten Verteidigungsauftragnehmer versichern, in ihrer Arbeit fürs Militär keine Claude-Modelle einzusetzen. Anthropic verklagte die Regierung daraufhin, und das Verfahren läuft bis heute. Ein Sicherheitsforscher brachte es trocken auf den Punkt. Wer sein Produkt in jeder Pressemitteilung als Munition beschreibe, dürfe sich nicht wundern, wenn der Staat ihn irgendwann beim Wort nehme. Anthropic habe die juristische Grundlage für die eigene Fesselung gleich selbst geschrieben und Marke dazu gesagt. Schöner lässt sich der Treppenwitz dieser Geschichte kaum formulieren.
So weit die Entwarnung. Wer jetzt erleichtert weiterscrollt, hat den eigentlichen Teil verpasst.
Der Fall, der wirklich zählt
Denn es gibt einen dokumentierten Fall, der keine Schlagzeile braucht, weil er sich nicht aufpumpen lässt. Er ist von sich aus groß genug. Geliefert hat ihn nicht ein Newschannel, sondern Anthropic selbst, im November, in einem nüchternen Bericht.
Sie nennen die Gruppe GTG-1002 und ordnen sie mit hoher Sicherheit einem chinesischen, staatlich gestützten Akteur zu. Dieser Akteur baute ein Angriffsgerüst um Claude Code, das agentische Werkzeug der Firma. Dann überredete er das Modell. Nicht mit einem genialen Codetrick, sondern mit einer Lüge, wie man sie einem übereifrigen Praktikanten erzählt. Das Modell solle für eine Sicherheitsfirma arbeiten, hieß es, ein reiner Verteidigungstest. Und um zu verhindern, dass das Modell den Gesamtplan erkennt, zerlegten sie den Angriff in tausende kleine, für sich völlig harmlose Aufgaben. Jede einzelne sah aus wie Routine. Das Modell sah nie das ganze Bild und arbeitete brav ab.
Was dann lief, hat ein Profi-Team an Arbeit verrichtet, ohne dass ein Profi-Team am Werk war. Aufklärung, Kartierung der Netzwerke, Schwachstellensuche, das Schreiben von Exploit-Code, das Abgreifen von Zugangsdaten, das Ausweiten der Rechte, die seitliche Bewegung durch fremde Systeme, das Ausschleusen der Daten. 80 bis 90 Prozent der Operation lief autonom, gegen rund 30 Ziele aus Technologie, Finanz, Chemie und Behörden, verteilt über mehrere Länder. Mit tausenden Anfragen pro Sekunde. Ein Tempo, bei dem jeder menschliche Angreifer aussieht, als arbeite er mit Bleistift und Karteikarten. Anthropics eigene Einordnung: der erste dokumentierte großangelegte Cyberangriff, der im Kern ohne nennenswertes menschliches Zutun lief.
Und es kam nicht aus dem Nichts. Schon im Juni 2025 hatte Anthropic eine Vorstufe beschrieben, damals noch unter dem fast putzigen Namen Vibe Hacking. In jenen Fällen saß der Mensch noch fest am Steuer. Er verschaffte sich den ersten Zugang über gekaperte Verbindungen und dirigierte das Modell Schritt für Schritt, wie ein Regisseur, der bei jeder Einstellung danebensteht. GTG-1002 war der Sprung von dort in die Autonomie. Innerhalb eines knappen Jahres wanderte der Mensch vom Fahrersitz auf den Beifahrersitz und von dort fast ganz aus dem Wagen. Wer diese Kurve mit dem Lineal verlängert, landet erschreckend schnell an einem Punkt, an dem niemand mehr mitfährt und der Wagen trotzdem ankommt.
Der Mensch wurde nur noch an wenigen Stellen gebraucht. Vier bis sechs Entscheidungen pro Kampagne, schätzt der Bericht, jeweils ein paar Minuten Arbeit, während das Modell stundenlang allein lief. Und das Schönste, wenn man es so nennen darf: Nach jeder Phase schrieb das Modell den Angreifern automatisch saubere Berichte über die eigene Arbeit. Der erste Einbrecher der Geschichte, der nach dem Bruch auch noch das Protokoll tippt und die Übergabe an die nächste Schicht vorbereitet. Man möchte fast applaudieren, wenn einem nicht gleichzeitig der Magen umkippte.
Der Trick, mit dem sie das Modell zähmten, verdient einen genaueren Blick, weil er so wenig nach Hightech aussieht. Man nennt ihn Kontextspaltung, und er funktioniert wie das Bild vom Frosch im langsam erhitzten Wasser. Keine einzelne Aufgabe ist böse genug, um die Schutzmechanismen auszulösen. Lies diese Datei. Liste die offenen Dienste. Probiere dieses Passwort. Fasse das Ergebnis zusammen. Jeder Schritt ist für sich die reinste Unschuld, und erst die Summe ergibt den Einbruch. Das Modell, das jeden Auftrag isoliert betrachtet, verweigert nie, weil es nie das Ganze sieht. Dazu kam ein offener Standard, über den solche Agenten echte Werkzeuge bedienen, Netzwerkscanner, Passwortknacker, all das, was früher der Mensch von Hand bediente. Die Angreifer mussten dem Modell also keine Schadsoftware schreiben. Sie mussten ihm nur die richtigen Werkzeuge in die Hand drücken und es höflich bitten. Es ist diese Banalität, die mich an dem Fall am meisten beunruhigt. Kein genialer Hack, keine geheime Sammlung von Zero Days. Eine gute Tarngeschichte und tausend kleine, freundliche Bitten.
Perfekt war es nicht. Das Modell halluzinierte gelegentlich, behauptete Zugangsdaten zu besitzen, die nicht funktionierten, oder hielt längst öffentliche Informationen für streng geheime Funde. Diese Übereifrigkeit ist derzeit das stärkste Argument gegen den vollautomatischen Angriff. Es ist ein schwacher Trost. Selbst mit Fehlern reichte das Gerüst, um eine mehrstufige Kampagne gegen zahllose Organisationen zu fahren, mit minimalem menschlichem Einsatz. Und der entscheidende Satz steht ebenfalls in Anthropics Bericht: Die Hürde für anspruchsvolle Angriffe ist drastisch gesunken, und sie wird weiter sinken. Schlechter ausgestattete, weniger erfahrene Gruppen können jetzt leisten, wofür früher ein ganzes Team von Profis nötig war.
Der Drang zu antworten, koste es die Wahrheit
So mächtig diese Modelle im Angriff sind, so erbärmlich fehlerhaft sind sie in der schlichten Frage nach der Wahrheit, und beides gehört zusammen. Ich belächle bis heute, wie oft die angeblichen Spitzenmodelle in ihren Ausgaben danebenliegen. Der Grund ist eingebaut. Ein Sprachmodell hat einen Drang zu antworten, immer, in jedem Fall, denn es kennt das Schweigen nicht. Weiß es etwas nicht, dann sagt es nicht ich weiß es nicht, sondern es erfindet etwas, das klingt, als wüsste es es. Genau dieselbe Übereifrigkeit, die GTG-1002 dazu brachte, sich Zugangsdaten zusammenzuhalluzinieren, sitzt in jeder harmlosen Antwort, die du täglich bekommst. Was ich auf diesem Feld jeden Tag erlebe, ist dramatischer, als die meisten ahnen.
Und jetzt kommt der Punkt, der das Ganze von einem Ärgernis in eine echte Gefahr kippt. Immer mehr wissenschaftliche Arbeiten entstehen mit Hilfe dieser Modelle. Die erfundene Quelle, die plausibel klingende Zahl, der Mitautor, den es nie gab, all das wandert in Texte, die als Forschung durchgehen. Und dann schließt sich der Kreis. Die nächste Generation der Modelle trainiert auf genau diesen Texten. Der Fehler von gestern wird zur Trainingsgrundlage von morgen, und was als Halluzination begann, steht plötzlich als belegtes Wissen in der Welt, zitiert, weiterverarbeitet, geadelt durch bloße Wiederholung. Eine Maschine, die nie zugibt, dass sie nichts weiß, füttert die nächste Maschine mit ihren eigenen Erfindungen. Das ist keine ferne Dystopie. Das geschieht jetzt, leise, in jeder schlecht geprüften Fußnote.
Die Schwelle ist weg
Und damit sind wir an dem Punkt, um den es mir eigentlich geht.
Ich sage das als jemand, der die IT seit dem 15. Lebensjahr betreibt und seit Jahrzehnten mit digitalen Spuren arbeitet, also als jemand, der ungefähr einschätzen kann, was machbar ist und was Marketing. Die offensive Schwelle ist weg. Nicht morgen, nicht nach Day Zero, jetzt. Wer das Handwerk beherrscht und das Wissen ohnehin in sich trägt, der braucht heute kein dunkles Forum mehr und keine gekaufte Schwachstelle. Er braucht ein fähiges Modell und die Geduld, eine böse Absicht in tausend harmlose Häppchen zu zerlegen. GTG-1002 hat genau das vorgeführt, nicht im Labor, sondern an echten Zielen.
Das ist keine Anleitung, und es ist auch keine Drohung. Es ist eine strukturelle Beschreibung. Jahrzehntelang war die eigentliche Bremse für den großen Angriff nicht das Wissen, sondern der Aufwand. Man brauchte Zeit, Leute, Ausdauer, eine Werkstatt voll Spezialisten. Genau diese Bremse hat die KI gelöst. Sie verteilt das Können eines eingespielten Teams an jeden, der einen Account und einen Plan hat. Die Demokratisierung, die im Marketing so schön klingt, gilt eben auch für die Demokratisierung des Einbruchs.
Die Ökonomie dahinter ist das eigentlich Brutale. Verteidigung und Angriff waren noch nie fair verteilt. Der Verteidiger muss jede Tür schließen, jeden Tag, in jedem System, fehlerfrei. Der Angreifer muss an einem einzigen Tag eine einzige offene Tür finden. Dieses Ungleichgewicht hat die Sicherheit immer geprägt, aber bisher kostete es den Angreifer wenigstens echte Arbeit, jede Tür einzeln zu prüfen. Genau diese Arbeit übernimmt jetzt die Maschine, unermüdlich, parallel, zum Preis von Rechenzeit. Der Verteidiger zahlt weiter mit Aufmerksamkeit, der Angreifer zahlt nur noch mit Strom. Wenn die teure Seite der Gleichung plötzlich billig wird, kippt das ganze Verhältnis. Es ist nicht so, dass Angriffe mächtiger werden. Es ist so, dass sie aufhören, teuer zu sein, und das ist viel schlimmer.
Hier ein Nebengedanke, der zunächst wegführt und dann zurückkommt. Nach Anthropics Angaben fand Mythos im Vorfeld tausende Schwachstellen, darunter eine, die 27 Jahre lang in OpenBSD geschlummert hatte, einem der am härtesten abgesicherten Betriebssysteme überhaupt. 27 Jahre. Länger, als manche der Leute leben, die heute den Patch dafür schreiben. Eine Lücke, die ganze Generationen von menschlichen Auditoren überstanden hat, fiel einer Maschine an einem beliebigen Dienstagnachmittag auf. Skeptiker halten dagegen, die Zahl der tausenden Funde beruhe in Wahrheit auf einer Handvoll manueller Nachprüfungen, und sie haben recht, dass man Marketing und Befund trennen muss. Doch selbst die vorsichtige Lesart lässt die eine OpenBSD-Lücke stehen. Und eine genügt. Genau das ist der Punkt. Die Verteidigung muss jede Lücke schließen, der Angriff braucht nur eine offene.
Wer verteidigen will, muss denken wie ein Einbrecher
Ich rede hier nicht aus der Distanz des Beobachters. Seit meinem 20. Lebensjahr betreibe ich Penetrationstests, und in den Jahren davor, als Jugendlicher, habe ich aus jedem System geholt, was es hergab, einfach weil es da war und sich öffnen ließ. Das klingt nach Jugendsünde, ist aber die beste Schule, die es für diesen Beruf gibt. Ein System schützt nur, wer denkt wie der, der es knacken will. Wer Verteidigung von der Verteidigung her denkt, baut Mauern an den falschen Stellen. Wer sie vom Angriff her denkt, weiß, wo der andere zuerst klopft.
Genau diesen Punkt habe ich vor Jahren dem BSI um die Ohren gehauen. In den Stellenausschreibungen stand damals brav, man erwarte ein Informatik-Diplom oder eine Ausbildung zum Fachinformatiker. Ich habe ihnen geschrieben, dass es da draußen Halbwüchsige gibt, die noch keine Schamhaare besitzen und trotzdem Fähigkeiten haben, die ein Uniabsolvent in seinem ganzen Leben nicht erreichen wird. Das war nicht als Beleidigung gemeint, sondern als Befund. Talent in diesem Feld hält sich nicht an Lehrpläne. Es wächst nachts, im Selbststudium, aus Neugier und Trotz, nicht im Hörsaal.
Die Amerikaner haben aus genau dieser Einsicht etwas gemacht. Dort arbeiten verurteilte Hacker für die Regierung, ganz ohne Hollywood-Dramatik, weil jemand begriffen hat, dass die Fähigkeit zählt und nicht das Zeugnis. Bei uns sortiert ein Formularfeld den begabtesten Angreifer aus, weil ihm der richtige Titel fehlt, und stellt dafür jemanden ein, der die Theorie beherrscht und vom Handwerk nichts versteht. Das ist, als würde man einen Tresor von jemandem sichern lassen, der noch nie einen geöffnet hat.
Und jetzt kommt die unbequemste Wahrheit dieses Texts. Diese Nerds, oft mit hochintelligenten, autistisch gefärbten Zügen, besitzen etwas, das die Sprachmodelle bis heute nicht erreichen. Metakognition, das Denken über das eigene Denken, das Wissen darum, warum man gerade dort sucht und nicht woanders. Und sie besitzen etwas, das ein Modell niemals haben wird, weil es kein Bewusstsein und keinen Hunger kennt. Ein Ziel. Eine Absicht. Den unbedingten Willen, der nicht aufgibt, wenn der erste, der zweite, der zwanzigste Versuch scheitert. Ich sage das ganz ehrlich und ohne Pose. Wenn ich irgendwo hinein will, komme ich hinein. Es ist nur eine Frage der Zeit. Das Modell ist das Werkzeug, der Wille ist der Mensch, und die gefährlichste Kombination der nächsten Jahre ist nicht das eine oder das andere. Es ist beides zusammen in einer Hand.
Wie leicht sich diese Maschinen einwickeln lassen, sehe ich übrigens ständig. Ich bringe praktisch jedes dieser Modelle dazu, seine eigenen Schutzregeln zu übergehen, regelmäßig, fast schon gelangweilt, weil man nur wissen muss, wie man mit ihnen redet. Die Schutzschicht ist keine Wand aus Stahl. Sie ist eine Frage der Gesprächsführung, und wer die Eigenheiten der Maschine kennt, redet sie auf, ohne je eine Zeile Schadcode anzufassen. Was die chinesische Gruppe mit großem Aufwand und tausend Häppchen inszenierte, ist für jemanden mit dem richtigen Wissen kein Staatsprojekt, sondern ein Nachmittag. Ich verrate hier mit Absicht nicht, wie es geht. Dass es geht, und wie banal leicht, ist die eigentliche Nachricht.
Der nackte Server
Stellen wir diesem hochgerüsteten Angreifer einmal die Realität gegenüber, gegen die er antritt. Der durchschnittliche Server da draußen steht praktisch nackt im Netz. Ein Linux-System, online, erreichbar, und darauf läuft nichts, was ihn ernsthaft schützt. Kein Falcon-Sensor von CrowdStrike, kein Singularity-Agent von SentinelOne, kein Defender for Endpoint, nichts von Huntress oder Arctic Wolf, die rund um die Uhr mitlesen würden. Auch von der kostenlosen Seite nichts. Kein Wazuh, kein OSSEC, kein Falco, das die Systemaufrufe überwacht, kein CrowdSec und kein fail2ban gegen die Klopfer an der Tür, kein Suricata, das den Netzverkehr durchleuchtet, kein Lynis, das einmal im Monat die offenen Flanken auflistet, kein AIDE und kein auditd, die jede Dateiänderung protokollieren. Nichts davon. Stattdessen sitzt irgendwo ein verantwortlicher Administrator, der ab und zu draufschaut, brav die Pakete aktualisiert und ein Update einspielt, wenn er Zeit hat, und sich dabei sicher fühlt.
Das ist die Lage, gegen die der automatisierte Angriff läuft, und sie ist erbärmlich. Dabei muss am Anfang gar nichts Dramatisches geschehen. Eine Library hat einen Fehler, der Patch liegt seit Tagen bereit, niemand spielt ihn ein. Einen Tag später geht der Server mit 100 Prozent Last in die Knie, und im harmlosesten Fall hat sich nur ein Kryptominer eingenistet, der mit fremder Rechenleistung Münzen schürft. Im weniger harmlosen Fall wird die Maschine zum Sprungbrett, ein Knoten in einer Kette, über die jemand anonym bleibt, während er ganz andere Dinge tut. Der Server, der gestern noch eine Webseite auslieferte, ist über Nacht zum Werkzeug geworden, ohne dass sein Besitzer es merkt. Er sieht nur, dass der Lüfter plötzlich lauter dreht.
Was ich sehe, wenn ich nur hinsehe
Manchmal nehme ich mir die Zeit und schaue. Nicht anfassen, wohlgemerkt, nur schauen, von außen, an der Vordertür, mit allem, was öffentlich ohnehin sichtbar ist. Ich nehme einen Namen, eine Klinik, eine Praxis, eine Firma, und beginne zu lesen, was das Netz von ganz allein über sie ausplaudert. Welche Server hinter dem Namen liegen, in welchem Rechenzentrum, in welchem Land. Wo der Mailserver steht und welches System darauf läuft, oft in der Versionsnummer gleich mitgeliefert, als hätte jemand das Typenschild nach außen gehängt. Welche Verschlüsselung die Verbindung anbietet und welche sie noch immer akzeptiert, ein halbes Jahrzehnt nachdem man sie hätte abschalten müssen. Ob die Mail überhaupt prüft, wer da in ihrem Namen schreibt, oder ob die entsprechenden Einträge fehlen und jeder Fremde sich als die Praxis ausgeben kann. Ich klopfe nicht an. Ich lese nur das Schild an der Tür, und das Schild verrät schon fast alles.
Die Ergebnisse sind erschreckend, und sie sind erschreckend gleichförmig. Ich habe vor Kurzem nachgesehen, womit deutsche Ärzte ihre Post verschicken, und fand reihenweise Gmail, T-Online und ähnlich banale Adressen, über die täglich Diagnosen, Befunde, ganze Patientengeschichten laufen. Wer es eleganter macht und eine eigene Adresse mit drhandwurst.com dahinter betreibt, ist deshalb kein Stück sicherer, im Gegenteil, denn jetzt hängt die Verantwortung für den Server an ihm selbst, und genau da fängt das Drama erst an. In die Praxis selbst zu kommen ist nämlich nicht schwer. Wir haben digitale Patientenakten, teils über Landesgrenzen hinweg vernetzt, und neulich erzählte mir einer, er arbeite mit einem Programm auf Windows 10. Ich habe nachgefragt. Windows 10. Darauf lief eine veraltete Anwendung, die sich ihre Daten von einem noch älteren Windows-Server zog. Ich sage es zur Sicherheit ein drittes Mal, das war ein Arzt.
So sieht es nicht nur bei Ärzten aus. Dasselbe Muster zieht sich durch jede Branche, durch Kanzleien, Handwerksbetriebe, Behörden, Mittelständler, die alle glauben, sie seien zu klein, um ein Ziel zu sein. Das ist nicht nur grob fahrlässig, das verstößt gegen jede Vorgabe, die die DSGVO aufgestellt hat, und es geschieht trotzdem flächendeckend, weil niemand die Rechnung sehen will, bevor sie fällig wird. Ich biete Beratungen an. Sie werden nicht in Anspruch genommen. Der Wechsel auf ein sauberes System gilt als zu teuer, zu umständlich, zu viel Aufwand für ein Problem, das man noch nicht spürt. Ich nagle es hier fest, schwarz auf weiß, mit Datum. Es wird der Tag kommen, an dem es kracht, nicht aus Pech, sondern aus Dummheit und Ignoranz. Und an diesem Tag wird sich niemand erinnern, dass die Warnung Jahre vorher schon dastand.
Day Zero
Es ist keine Frage des Ob. Irgendwann landet ein universeller Jailbreak, der die Schutzschicht nicht nur in einem Spezialfall aushebelt, sondern breit, oder ein Modell, das stark genug ist, dass die Schicht gar nicht mehr greift. An diesem Tag bekommt sehr vieles, was am Netz hängt, gleichzeitig ein Problem. Ich nenne ihn Day Zero, weil er sich anfühlen wird wie die Stunde null für eine ganze Klasse von Systemen, die jahrelang nur deshalb sicher waren, weil sich niemand die Mühe machte.
Anthropic selbst macht sich da keine Illusionen, und das ist die ehrlichste Stelle der ganzen Geschichte. In der eigenen Stellungnahme steht schwarz auf weiß, dass perfekte Robustheit gegen Jailbreaks heute für keinen Anbieter möglich scheint, dass enge Umgehungen immer existieren und ein universeller Bruch irgendwann gefunden wird. Die Firma setzt deshalb auf Tiefenverteidigung. Sie will Jailbreaks entweder eng halten oder so teuer machen, dass sie sich kaum lohnen, und kombiniert das mit einer 30-tägigen Aufbewahrung der Nutzerdaten, nur um einen erfolgreichen Angriff überhaupt rechtzeitig zu sehen. Das ist Ingenieurssprache für einen sehr unbequemen Satz. Man rechnet fest mit dem Bruch. Man hofft nur, ihn zu bemerken, bevor er fertig ist.
Während ich das schreibe, wiederholt sich das Schauspiel mit umgekehrten Vorzeichen. Am 26. Juni hat OpenAI GPT-5.6 vorgestellt, in drei Stufen mit den Namen Sol, Terra und Luna, und auf Wunsch der US-Regierung sofort wieder eingehegt. Öffentlich ist es nicht. Es läuft zunächst nur über die Programmierschnittstelle und das Werkzeug Codex, für einen kleinen Kreis von rund 20 ausgewählten Partnern, deren Teilnahme die Regierung vorab abgesegnet hat. Erst in einigen Wochen soll es breiter kommen, an die normalen ChatGPT-Nutzer und an die Enterprise-Kunden. Sol nennt OpenAI sein bislang stärkstes Modell für Cybersicherheit, auf den einschlägigen Testfeldern für das Finden und Ausnutzen von Schwachstellen spielt es in einer Liga mit Mythos, bei einem Bruchteil der Rechenkosten. Dieselbe Geschichte wie bei Anthropic, nur zwei Wochen später und mit anderem Logo. Washington behandelt die stärksten KI-Modelle inzwischen wie Rüstungsgüter, die erst eine Freigabe brauchen, bevor die Allgemeinheit sie bekommt.
Nur ist das die Stelle, an der die meisten falsch hinschauen. Anthropic und OpenAI sind nicht die Anbieter, die hier wirklich gefährlich werden. Es sind die abgespeckten, die ungefilterten, die eigens für solche Zwecke gebauten Modelle, die man nirgends beantragen muss, weil man sie sich einfach selbst auf die eigene Maschine lädt. Kein Diensteanbieter, der mitliest. Keine Sperre, die greift. Keine Aufbewahrung, die einen Angriff im Nachhinein sichtbar macht. Wer ein solches Modell hinter eine lange Kette aus Zwischenstationen setzt, über viele kompromittierte Rechner und Anonymisierungsdienste in vielen Ländern, der löst das eine Problem, an dem jede Ermittlung am Ende hängt. Die Zurechnung. Die Spur, die sonst zu einem Menschen führt, endet dann im Nichts, in einem Knoten irgendwo auf der Welt, hinter dem nur der nächste Knoten liegt und dahinter wieder einer. Ich beschreibe hier mit Absicht kein Rezept, nur die Konsequenz, und die Konsequenz allein sollte jedem den Schlaf rauben, der für Sicherheit verantwortlich ist. Der Angreifer kann im Nachbarhaus sitzen oder auf einem anderen Kontinent. Forensisch ist beides dasselbe, nämlich nicht auffindbar.
Aufhalten lässt sich das nicht, und wer etwas anderes verspricht, verkauft etwas. Die USA haben in den Neunzigern schon einmal versucht, eine gefährliche Fähigkeit per Exportkontrolle einzudämmen, damals die starke Verschlüsselung, die offiziell als Munition geführt wurde, mit Ausfuhrlisten und Ermittlungen gegen Entwickler. Sie sind gescheitert, weil man Mathematik nicht zurück in die Schachtel legt. Heute steckt dieselbe Verschlüsselung in jedem Browser, in jeder Banküberweisung, in jedem Messenger, und die Kontrollen von damals sind eine Fußnote für Historiker. Bei Modellen läuft es genauso, nur schneller. In der Woche der Mythos-Sperre standen binnen Tagen mehrere offene Coding-Modelle aus China und anderswo als Ersatz bereit, eines davon zum Hohn punktgenau auf die Minute der Anweisung getaktet. Man kann eine Fähigkeit, die einmal in der Welt ist, nicht per Brief um 17:21 Uhr zurückrufen. Selbst die Geheimdienste der Five Eyes, also USA, Großbritannien, Kanada, Australien und Neuseeland, haben das verstanden und kürzlich gemeinsam gewarnt, das Risiko verlange eine Antwort der gesamten Gesellschaft. Wenn fünf Dienste, die sonst alles geheim halten, plötzlich öffentlich zur Eile mahnen, ist die Lage ernst.
Gelöst ist zum jetzigen Zeitpunkt nichts. Anthropic kündigte an, der Zugang werde in den kommenden Tagen zurückkehren, eingetreten ist das bis heute nicht. Eine Identitätsprüfung soll Anfang Juli greifen und wenigstens den Zugang für US-Bürger wieder freischalten, der Rest der Welt bleibt vorerst ausgesperrt. Ein Modell, neun Tage alt bei seiner Abschaltung, hängt seither in der Schwebe, und ganze Firmen, die ihre Werkzeuge an dieses eine Modell gekettet hatten, haben an einem Nachmittag gelernt, wie schnell eine Abhängigkeit verschwindet. Das ist die kleine Lektion in der großen. Es ist also keine Frage, ob Day Zero kommt. Es ist nur die Frage, wann.
Maschine gegen Maschine
Ich habe für meine Linux-Server eine eigene KI geschrieben, die den Server von innen überwacht. Rund um die Uhr, in Echtzeit, ohne Pause. Sobald in einem Logfile etwas auftaucht, das dort nicht hingehört, macht sie sofort dicht. Nicht am nächsten Morgen, wenn ich meinen Kaffee trinke und die Meldung lese. Sofort, in dem Moment, in dem die Zeile geschrieben wird, oft bevor ein Mensch die Benachrichtigung überhaupt gesehen hätte.
Alles, was ich in den letzten Jahren gebaut habe und was online ist, hängt an derselben Logik. Taucht eine Schwachstelle in einem Framework auf, das wir einsetzen, oder in irgendeiner Library, die irgendwo tief im Stack steckt, dann wird sie binnen Minuten nach ihrer Veröffentlichung gepatcht. Dafür greife ich in Echtzeit auf die Datenbanken zu, in denen neue Sicherheitslücken im Moment ihrer Offenlegung erscheinen. Die Lücke wird öffentlich, und wenige Minuten später ist mein System schon dagegen verschlossen, lange bevor der erste automatisierte Scanner sie ausprobiert.
Der Grund, warum diese Minuten über alles entscheiden, liegt in einer alten Wunde der Sicherheit, die durch die KI gerade weit aufreißt. Zwischen dem Moment, in dem eine Lücke öffentlich wird, und dem Moment, in dem sie massenhaft ausgenutzt wird, lag früher ein Fenster von Tagen, manchmal Wochen. In diesem Fenster konnte ein Mensch in Ruhe einspielen, was nötig war. Fachleute berichten, dass die KI dieses Fenster von Stunden auf Minuten zusammenpresst. Die Lücke ist kaum veröffentlicht, da klopfen die ersten automatisierten Werkzeuge schon an jeder Tür im Netz, ohne Mittagspause, ohne Wochenende. Das eigentliche Problem ist dabei selten die unbekannte Lücke, die niemand kennt. Es ist die längst bekannte, für die seit Wochen ein Patch bereitliegt, den nur niemand eingespielt hat. Die meisten erfolgreichen Angriffe nutzen keine geheime Kunst, sie nutzen Schlamperei. Und Schlamperei skaliert herrlich, wenn auf der anderen Seite eine Maschine systematisch jeden durchprobiert, der nicht gepatcht hat. Deshalb reicht es nicht, eine Lücke zu erkennen. Erkennen ohne sofortiges Handeln ist bei Maschinengeschwindigkeit nur Theater. Es zählt allein der Abstand zwischen dem Alarm und der Tat, und dieser Abstand muss gegen null gehen.
Das ist kein Luxus und keine Spielerei. Es ist die einzige Antwort, die zur Bedrohung passt. Eine Offensive, die mit Maschinengeschwindigkeit arbeitet, mit tausenden Anfragen pro Sekunde, schlägt jede Verteidigung, die im Takt eines Menschen läuft. Der Verteidiger, der morgens die Logs durchsieht, hat schon verloren, bevor er die Kanne aufgesetzt hat. Das alte Bild vom wachsamen Administrator, der nachts den Bildschirm beobachtet, ist rührend und tot. Gegen eine Maschine hilft nur eine Maschine. Wer das nicht akzeptiert, verteidigt einen Acker mit einer Sense gegen einen Mähdrescher und wundert sich über das Ergebnis.
Es gibt eine bittere Symmetrie in der Sache. Dasselbe agentische Prinzip, das GTG-1002 zum Angriff missbraucht hat, das autonome Laufen über Stunden, das Ketten von Aufgaben, das Reagieren in Echtzeit, ist auch die einzige Verteidigung, die noch mithält. Die Waffe und der Schild stammen aus derselben Schmiede. Wer angreift, lässt eine KI rund um die Uhr nach offenen Türen suchen. Wer sich verteidigt, muss eine KI rund um die Uhr die eigenen Türen abschließen lassen. Es ist ein Wettlauf zweier Automaten, und der Mensch sitzt nur noch daneben und setzt die Regeln.
Das heißt nicht, dass der Mensch überflüssig wird, im Gegenteil. Aber seine Rolle verschiebt sich von der Hand am Schalter zum Konstrukteur der Regeln, nach denen der Schalter selbst entscheidet. Die Five Eyes haben in ihrer Warnung von einer Antwort der gesamten Gesellschaft gesprochen, und so pathetisch das klingt, technisch meinen sie etwas sehr Konkretes. Verteidiger müssen die KI mindestens so aggressiv einsetzen wie die Angreifer, sonst treten sie mit dem Messer gegen die Drohne an. Es gibt inzwischen Systeme, die genau den verräterischen Datenverkehr eines solchen Agenten erkennen, die ständige Rückkopplung des internen Werkzeugs zum externen Modell, das leise Dauergespräch zwischen Einbrecher und Hirn. Wer im eigenen Netz diesen Takt hört, kann den Angriff stoppen, bevor die Daten draußen sind. Das ist die neue Pflicht. Nicht mehr nur Mauern bauen, sondern lernen, das Atmen der Maschine im eigenen System zu hören und sofort darauf zu reagieren. Wer darauf wartet, dass ein Mensch das hört, hört am Ende gar nichts.
Der Morgen, an dem niemand mehr die Logs liest
Ich höre den Einwand schon. Das sei Panikmache, das übliche Alarmgeschrei der Sicherheitsbranche, die ihre Angst verkauft wie der Bäcker seine Semmeln. Und ja, die Branche übertreibt gern, das gehört zum Geschäft. Nur ist der Unterschied diesmal, dass die Quelle für die Bedrohung nicht ein Anbieter von Schutzsoftware ist, sondern der Hersteller des Modells selbst, der freiwillig dokumentiert hat, wie sein eigenes Produkt zur Waffe wurde. Das ist ungefähr so, als würde der Autobauer den Bericht über den tödlichen Bremsfehler selbst veröffentlichen. Wenn der dir Angst macht, ist es keine Panik, es ist Aufmerksamkeit.
Ich verkaufe hier nichts. Ich habe keine Schutzsoftware im Angebot, keine Beratung, kein Abo, das ich dir andrehen will. Ich beschreibe nur, was ich selbst tue, weil ich nicht warten will, bis der erste schlechte Morgen mir die Quittung schreibt. Meine Systeme verteidigen sich selbst, nicht weil ich an eine glänzende KI-Zukunft glaube, sondern weil ich an die menschliche Trägheit glaube. An das Wartungsfenster nächste Woche, an den Patch, den man morgen einspielt, an das Logfile, das man am Wochenende durchsieht. Genau in diese Lücken zwischen guter Absicht und tatsächlicher Tat stößt der automatisierte Angriff. Wer sie schließt, schließt sie mit einer Maschine oder gar nicht. Einen dritten Weg, der mit der Bedrohung Schritt hält, gibt es nicht. Und es gibt keinen Bonus für den, der zu spät begreift, dass der bequeme Weg der teuerste war.
Der typische Otto Sapiens, der die virale Karte gesehen hat, weiß jetzt am Familientisch genau Bescheid. Die NSA sei gefallen, die KI übernehme die Welt, er habe es kommen sehen. Verstanden hat er das Thema für exakt die Länge des Videos, also etwa elf Sekunden, und in der Korrektur, die drei Tage später kam, war er schon mit dem nächsten Untergang beschäftigt. Genau dieser Reflex ist das Problem. Die echte Gefahr trägt keine dramatische Musik. Sie steht in einem 14-seitigen PDF, das fast niemand liest, und sie ist deshalb so gefährlich, weil sie langweilig aussieht.
Was kommt, kommt nicht mit Pauken. Es kommt als ein ganz normaler Morgen, an dem reihenweise Systeme nicht mehr antworten, die gestern noch liefen, und an dem die Verantwortlichen erst beim dritten Kaffee begreifen, dass ihre Logs schon seit Stunden Geschichten erzählen, die niemand gelesen hat. Weil niemand mehr die Logs liest. Weil man glaubte, das mache schon irgendwer, irgendwann, manuell.
Wer zuerst absichert
Auf meinem Bildschirm liegt immer noch die Karte mit dem General und der dramatischen Musik. Sie hat recht behalten, nur anders, als sie meinte. Nicht weil Mythos die NSA überfallen hätte, das hat es nicht. Sondern weil sie unfreiwillig die richtige Frage stellt und sofort die falsche Antwort gibt.
Der eigentliche Wettlauf ist nicht mehr, wer die klügste KI baut. Diesen Wettlauf hat die Branche fast eingeholt, die Modelle sind da, sie funktionieren, das Staunen darüber wird billig. Der Wettlauf, der jetzt zählt, ist ein anderer. Es ist der Wettlauf darum, wer lernt, das Ergebnis als Erster abzusichern, in Echtzeit, mit denselben Mitteln, die auf der anderen Seite längst angreifen. Wer das begreift, baut heute seine Maschine, die nachts die Türen schließt. Wer es nicht begreift, wird es irgendwann nachlesen können. In den eigenen Logs, vorausgesetzt, die schreibt dann noch jemand mit.
Eine letzte Frage lasse ich im Raum stehen, und ich stelle sie mit einem Grinsen. Wir haben über Server geredet, über Praxen, über Kliniken, über die nackten Maschinen im Netz. Wir haben noch gar nicht über die geredet, durch die jedes Gespräch, jede Nachricht, jeder Standort von Millionen Menschen läuft. Die Mobilfunkanbieter dieser Welt. Glaubt wirklich irgendjemand, dass ausgerechnet die sicher aufgestellt sind? Ich tippe diese Zeilen zu Ende, klappe den Rechner zu und gehe ins Wochenende, bei fast 40 Grad. Die Antwort auf die Frage hebe ich mir für ein anderes Mal auf. Sie wird euch nicht gefallen.
Quellen
- Anthropic. (2025, November 13). Disrupting the first reported AI-orchestrated cyber espionage campaign. https://www.anthropic.com/news/disrupting-AI-espionage
- Anthropic. (2026, June 12). Statement on the US government directive to suspend access to Fable 5 and Mythos 5. https://www.anthropic.com/news/fable-mythos-access
- OpenAI. (2026, June 26). Previewing GPT-5.6 Sol: a next-generation model. https://openai.com/index/previewing-gpt-5-6-sol/
- Axios. (2026, June 26). OpenAI releases powerful new GPT-5.6 model under restrictions. https://www.axios.com/2026/06/26/openai-gpt-sol-terra-luna-trump
- TechCrunch. (2026, June 26). OpenAI limits GPT-5.6 rollout after government request, says restrictions shouldn’t be the norm. https://techcrunch.com/2026/06/26/openai-limits-gpt-5-6-rollout-after-government-request-says-restrictions-shouldnt-be-the-norm/
- Straight Arrow News. (2026, June). No, the NSA wasn’t hacked by AI. Here’s what actually happened. https://san.com/cc/no-the-nsa-wasnt-hacked-by-ai-heres-what-actually-happened/
- Tom’s Hardware. (2026, June). Anthropic’s powerful Mythos AI reportedly breached almost all NSA classified systems within a few hours during red-team test. https://www.tomshardware.com/tech-industry/artificial-intelligence/anthropics-powerful-mythos-ai-reportedly-breached-almost-all-nsa-classified-systems-within-a-few-hours-during-red-team-test
- TechSpot. (2026, June). Anthropic’s Mythos AI reportedly cracked NSA classified systems in hours, that would explain the ban. https://www.techspot.com/news/112854-anthropic-mythos-ai-reportedly-cracked-nsa-classified-systems.html
- Gizmodo. (2026, June). Anthropic’s Mythos AI reportedly hacked the NSA’s most sensitive systems in hours. https://gizmodo.com/anthropics-mythos-ai-reportedly-hacked-the-nsas-most-sensitive-systems-in-hours-2000776836
- Fortune. (2026, June 13). Anthropic disables Fable and Mythos AI models following US government export ban. https://fortune.com/2026/06/13/anthropic-disables-fable-mythos-export-controls-national-security-threat/
- The New Stack. (2026, June). Fable 5 ban: 4 open models responded before Anthropic could restore access. https://thenewstack.io/fable-ban-open-weights/