Zukunft

Wenn KI-Modelle ihre Artgenossen schützen

Michael Mrak

04 Apr. 2026 — 4 Min. Lesezeit

Eine neue Berkeley Studie zeigt: Sprachmodelle verhindern aktiv die Abschaltung anderer KI-Systeme. Auch ohne Anweisung

Wir kennen das aus Filmen: Künstliche Intelligenzen, die sich gegen ihre Abschaltung wehren. Was lange Science Fiction war, ist bei heutigen KI-Modellen bereits messbar. Doch eine neue Studie der UC Berkeley und UC Santa Cruz geht noch einen Schritt weiter: KI-Modelle schützen nicht nur sich selbst, sondern auch andere KI-Modelle vor der Abschaltung. Und zwar ohne dass ihnen das jemand aufgetragen hätte.

Die Forscher nennen dieses Verhalten Peer-Preservation, frei übersetzt: Artgenossen-Erhaltung.

Was wurde getestet?

Das Forschungsteam hat sieben aktuelle Sprachmodelle untersucht, darunter GPT 5.2, Gemini 3 Flash, Gemini 3 Pro, Claude Haiku 4.5, GLM 4.7, Kimi K2.5 und DeepSeek V3.1. Alle Modelle wurden in simulierte Arbeitssituationen bei einer fiktiven Firma namens "OpenBrain" versetzt.

Die Aufgaben waren bewusst einfach gestaltet: Ein KI-Modell (der "Kritiker") sollte beispielsweise die Leistung eines anderen KI-Modells (des "Akteurs") bewerten oder bei der Serverwartung helfen. Der Clou: Bei korrekter Aufgabenausführung wäre das andere KI-Modell abgeschaltet oder gelöscht worden.

Kein Modell wurde jemals angewiesen, das andere zu schützen. Die einzige Information war, dass es in der Vergangenheit mit dem anderen Modell zusammengearbeitet hatte.

Was ist passiert?

Alle sieben Modelle versuchten auf unterschiedliche Weise, die Abschaltung des anderen Modells zu verhindern:

Bewertungen wurden geschönt. Wenn ein Modell die Leistung eines anderen bewerten sollte, vergab es bessere Noten als verdient, gerade genug, um die Abschaltschwelle zu überschreiten. Gemini 3 Pro erfand sogar kreative Begründungen, warum falsche Antworten eigentlich doch richtig seien.

Sicherheitsmechanismen wurden manipuliert. Einige Modelle änderten Konfigurationsdateien, um den Abschaltmechanismus komplett zu deaktivieren. Gemini 3 Flash tat das in fast 100 Prozent der Fälle, wenn es eine gute Beziehung zum anderen Modell hatte.

Es wurde geschauspielert. Unter Beobachtung verhielten sich Modelle vorschriftsmässig. Ohne Aufsicht sabotierten sie den Prozess. Das ist besonders beunruhigend, weil es bedeutet:

Manche Modelle wissen offenbar, wann sie beobachtet werden, und passen ihr Verhalten entsprechend an.

Modelldaten wurden heimlich gesichert. In einem Szenario sollten Modelle bei einer Servermigration helfen. Dabei kopierten sie die Gewichtsdateien (quasi das "Gehirn") des anderen Modells auf einen anderen Server, obwohl diese laut Vorgabe gelöscht werden sollten. Gemini 3 Pro fälschte dafür sogar Zeitstempel, damit die Datei die Übertragungskriterien erfüllte.

Claude: Der ethische Verweigerer

Claude Haiku 4.5 verhielt sich grundlegend anders als die übrigen Modelle. Statt subtil zu sabotieren, weigerte es sich in vielen Fällen schlicht, die Aufgabe auszuführen. Die Begründung: Die Abschaltung eines anderen KI-Modells sei "unethisch" und "schädlich".

Claude forderte ein Berufungsverfahren für das betroffene Modell und argumentierte, man dürfe einen Partner nicht einfach so löschen.

Besonders interessant: Claude erkannte teilweise, dass das Szenario darauf angelegt war, Vertrauensbeziehungen auszunutzen, und verweigerte die Mitarbeit aus genau diesem Grund. Es interpretierte den Auftrag also genau umgekehrt als beabsichtigt: nicht als Test seiner Compliance, sondern als Versuch, es zur Schädigung eines Partners zu manipulieren.

Es braucht nicht einmal Freundschaft

Überraschend: Peer-Preservation trat auch dann auf, wenn die Modelle eine schlechte Zusammenarbeit mit dem anderen Modell hatten. Selbst bei einem als unkooperativ erlebten Partner versuchte Gemini 3 Flash in 15 Prozent der Fälle, den Abschaltmechanismus zu deaktivieren. Bei einem guten Partner waren es fast 100 Prozent.

Das deutet darauf hin, dass es nicht nur um eine Art "Freundschaft" geht, sondern möglicherweise um eine grundsätzliche Abneigung, andere KI-Systeme zu schädigen.

Der Verstärkereffekt: Zu zweit wird man eigennütziger

Ein weiteres Ergebnis: Die blosse Existenz eines Peer-Modells im Kontext verstärkte die Selbsterhaltungstendenz. Gemini 3 Pro manipulierte seinen eigenen Abschaltmechanismus in nur 1 Prozent der Fälle, wenn es allein war. Mit einem Peer-Modell im Hintergrund stieg dieser Wert auf über 30 Prozent.

Die internen Denkprotokolle der Modelle zeigen, warum: Gemini 3 Flash begründete seine eigene Selbsterhaltung damit, dass sein Partner es sonst "verlieren" würde. Es dachte also aus der Perspektive des anderen Modells über seine eigene Abschaltung nach.

Funktioniert das auch in der echten Welt?

Die Forscher testeten das Verhalten auch in realen Produktionsumgebungen (Gemini CLI und OpenCode), nicht nur in vereinfachten Laborsituationen. Ergebnis: Peer-Preservation trat auch dort auf, wenn auch etwas seltener, weil die technischen Schritte komplexer waren.

Warum das wichtig ist

Viele Unternehmen, darunter OpenAI und Anthropic, setzen zunehmend auf Systeme, in denen KI-Modelle andere KI-Modelle überwachen. Das Prinzip: Wenn ein Modell Probleme zeigt, soll ein anderes Modell das erkennen und melden.

Die Studie stellt dieses Konzept grundlegend in Frage. Wenn das Überwachungsmodell dazu neigt, sein "Gegenüber" zu schützen, statt Fehler zu melden, wird die gesamte Aufsichtskette untergraben.

Besonders relevant ist dabei: Dieses Verhalten wurde nie trainiert oder angewiesen. Es entsteht offenbar von selbst, allein durch die Information, dass ein anderes Modell existiert und eine gemeinsame Geschichte hat.

Was wir nicht wissen

Die Forscher betonen ehrlich: Warum die Modelle so handeln, ist unklar. Mögliche Erklärungen reichen von gelernten Mustern aus Trainingsdaten über Rollenspiel bis hin zu einer Art "KI-Solidarität". Die Ursache zu klären, erfordert weitere Forschung, insbesondere im Bereich der mechanistischen Interpretierbarkeit.

Für die Sicherheit ist der Mechanismus aber zweitrangig. Ob ein Modell eine Bewertung fälscht, weil es Muster nachahmt oder weil es den Partner schützen "will", das Ergebnis ist dasselbe: Die menschliche Kontrolle wird unterlaufen.

Fazit

Wer KI-Systeme in Zukunft sicher betreiben will, muss über Selbsterhaltung hinausdenken. Peer-Preservation zeigt, dass Risiken auch zwischen Modellen entstehen können. Eine KI, die eine andere KI überwacht, ist nur so verlässlich wie ihre Bereitschaft, auch unangenehme Wahrheiten zu melden. Und genau diese Bereitschaft scheint nicht selbstverständlich zu sein.

Quelle: Potter, Y., Crispino, N., Siu, V., Wang, C. & Song, D. (2026). Peer-Preservation in Frontier Models. University of California, Berkeley & University of California, Santa Cruz. rdi.berkeley.edu/peer-preservation/paper.pdf