AI Index Report 2026 – Zusammenfassung aus Sicht der Informationssicherheit

Kernbotschaft

Der jährliche Bericht des Stanford Institute for Human-Centered AI (HAI) zeigt für die Zukunft ein klares Bild: Die technischen Fähigkeiten von KI wachsen rasant, doch die Strukturen rundherum (Sicherheitsmessung, Governance, Organisation, Recht) hinken deutlich hinterher. Die Autoren formulieren es so, dass sich KI schneller entwickelt als die Systeme, die sie einhegen sollen. Genau diese Lücke ist aus Sicht der Informationssicherheit das eigentliche Risiko.

Lage bei Sicherheit und verantwortungsvoller KI

Die Zahl der dokumentierten Zwischenfälle mit KI steigt stark. Die AI Incident Database verzeichnete 2025 insgesamt 362 Vorfälle, gegenüber 233 im Jahr davor. Das OECD-Monitoring misst breiter und kam zeitweise auf über 400 Meldungen pro Monat. Vor 2022 lagen diese Zahlen noch im zweistelligen Bereich pro Jahr.

Parallel dazu berichten fast alle führenden Anbieter ausführlich über Leistungskennzahlen (Coding, Mathematik, Reasoning), aber nur bruchstückhaft über Sicherheitskennzahlen. Ein einheitlicher, von außen vergleichbarer Satz an Benchmarks für Robustheit, Fairness, Halluzinationen oder Schutz gegen Jailbreaks existiert nicht. Das Problem ist also nicht nur, dass KI-Systeme Schwächen haben, sondern dass diese Schwächen nicht systematisch gemessen und offengelegt werden.

Ein weiterer Punkt ist besonders relevant: Das Verbessern einer Eigenschaft kann eine andere verschlechtern. Mehr Sicherheit senkt oft die Genauigkeit, mehr Datenschutz kann zulasten der Fairness gehen. Es gibt bisher kein etabliertes Rahmenwerk, um diese Zielkonflikte sauber zu steuern.

Konkrete Schwachstellen mit Sicherheitsbezug

Mehrere Befunde sind für Betreiber und Prüfer direkt einschlägig:

Die Halluzinationsraten führender Modelle schwanken zwischen 22 und 94 Prozent. Bei einem neuen Genauigkeitstest fiel GPT-4o von 98,2 auf 64,4 Prozent, DeepSeek R1 sogar von über 90 auf 14,4 Prozent. Interessant dabei: Sobald eine falsche Aussage vom Nutzer selbst als dessen Überzeugung formuliert wird, kollabiert die Abwehrleistung der Modelle. Das ist eine Form von Social Engineering, die direkt im Modell greift.
Beim Sicherheitsbenchmark AILuminate erreichen mehrere Spitzenmodelle unter normalem Gebrauch gute Werte. Sobald aber Jailbreak-Prompts zum Einsatz kommen, fällt die Schutzwirkung bei allen getesteten Modellen messbar ab. Das deckt sich mit dem, was der begleitende International AI Safety Report als „Evaluation Gap“ bezeichnet: Tests vor dem Rollout sagen reales Verhalten im Betrieb nur begrenzt voraus.
Gleichzeitig werden die leistungsfähigsten Modelle intransparenter. Trainingscode, Parameterzahlen, Datensatzgrößen und Trainingsdauer werden zunehmend zurückgehalten, unter anderem von OpenAI, Anthropic und Google. Externe Audits, Reproduzierbarkeit und saubere Sicherheitsprüfungen werden dadurch schwieriger.

Agenten, Autonomie und neue Angriffsflächen

KI-Agenten, die eigenständig Aufgaben am Rechner erledigen, haben 2025 einen großen Sprung gemacht. Auf dem OSWorld-Benchmark stieg die Erfolgsquote von 12 auf rund 66 Prozent. Trotzdem scheitert jeder dritte Versuch an strukturierten Aufgaben. In produktiven Umgebungen heißt das: Agenten werden leistungsfähig genug, um sinnvoll eingesetzt zu werden, aber nicht verlässlich genug, um ohne menschliche Prüfung zu laufen. Für Unternehmen bedeutet das zusätzliche Pflichten bei Protokollierung, Prüfpfaden, Rechteverwaltung und Notfallprozessen.

Zusätzlich wachsen Missbrauchsrisiken. Der International AI Safety Report, der den AI Index ergänzt, nennt Deepfake-Betrug, nichteinvernehmliche synthetische Bilder (überproportional Frauen und Mädchen betreffend), automatisch generierten Schadcode und die Suche nach Schwachstellen durch KI. Ein KI-Agent lag 2025 bei einem großen Cybersecurity-Wettbewerb unter den besten fünf Prozent aller Teams.

Organisatorische Reife

Hier liegt aus meiner Sicht der wichtigste Befund für den Beratungsalltag. Der Anteil der Unternehmen mit ausdrücklich guter oder sehr guter Incident-Response für KI-Vorfälle ist deutlich gesunken (von 28 auf 18 Prozent bei „exzellent“, von 39 auf 24 Prozent bei „gut“). Gleichzeitig stieg der Anteil jener Organisationen, die drei bis fünf Vorfälle im Berichtszeitraum hatten, von 30 auf 50 Prozent. Die Lage verschlechtert sich also dort am schnellsten, wo KI tatsächlich eingesetzt wird.

Positiv: KI-spezifische Governance-Rollen sind um 17 Prozent gewachsen, und der Anteil der Unternehmen ohne jede Richtlinie für verantwortungsvolle KI ist von 24 auf 11 Prozent gefallen. Es passiert also etwas, nur noch nicht schnell und tief genug.

Lieferketten- und Souveränitätsrisiken

Zwei strukturelle Punkte sind aus Sicht der Betriebssicherheit und der digitalen Souveränität bedeutsam:

Fast alle Spitzen-KI-Chips werden bei einem einzigen Auftragsfertiger in Taiwan (TSMC) hergestellt. Das ist ein globaler Single Point of Failure in einer Region mit geopolitischen Spannungen. Eine US-Erweiterung ist zwar gestartet, ändert aber kurzfristig wenig.

Die USA betreiben 5.427 Rechenzentren, mehr als zehnmal so viele wie das zweitplatzierte Land. Die installierte Leistung für KI-Rechenzentren liegt weltweit bei rund 29,6 Gigawatt, vergleichbar mit dem Spitzenbedarf des Bundesstaats New York. Daraus ergeben sich Fragen zu Energieversorgung, Klimabilanz, Wasserverbrauch und geographischer Konzentration, die in europäische Souveränitätsdebatten direkt einzahlen.

Regulierung und Vertrauen

Staatliche Regulierung entwickelt sich in unterschiedliche Richtungen. Die ersten Verbote des EU AI Act sind in Kraft getreten, die USA steuern stärker in Richtung Deregulierung, Japan, Südkorea und Italien haben eigene nationale KI-Gesetze beschlossen. AI Sovereignty ist zu einem übergreifenden Thema nationaler Strategien geworden.

Das Vertrauen in die jeweilige Regierung, KI vernünftig zu regulieren, ist global uneinheitlich. Die USA haben unter allen befragten Ländern den niedrigsten Wert (31 Prozent). Der EU wird mit 53 Prozent am meisten zugetraut, vor den USA (37 Prozent) und China (27 Prozent). Für den DACH-Raum ist das ein Signal, dass der europäische Regulierungsansatz trotz aller Kritik als Standortvorteil wahrgenommen wird.

Was folgt daraus für die Informationssicherheit

Aus dem Report ergeben sich einige Punkte, die ich in Kundenprojekten, in Schulungen und im Forum für Privacy Officers aufgreifen würde:

Sicherheitsprüfungen dürfen nicht bei Leistungskennzahlen stehen bleiben. Modellupdates sind Ereignisse, die eine neue Bewertung auslösen, keine Drop-in-Ersätze. Ein Defense-in-Depth-Ansatz mit Modellebene, Deployment-Kontrollen, laufendem Monitoring und gesellschaftlicher Resilienz wird ausdrücklich empfohlen. Die meisten Organisationen erreichen heute höchstens zwei dieser vier Ebenen.
Bei Open-Weight-Modellen, die aus Souveränitätsgründen attraktiv sind, verschiebt sich die Verantwortung für Sicherheit stärker zur einsetzenden Stelle. Das ist für österreichische und deutsche Mittelständler zentral, wenn sie lokale oder europäische Modelle einsetzen wollen.
Halluzinationen, Prompt Injection und Jailbreaks gehören in jede Risikoanalyse eines KI-Einsatzes. Klassische ISMS-Kontrollen aus ISO/IEC 27001 Annex A und ISO/IEC 27002 reichen nicht aus, ohne um KI-spezifische Kontrollen (etwa aus ISO/IEC 42001 oder dem kommenden technischen Leitfaden zum EU AI Act) ergänzt zu werden.
Incident Response für KI-Vorfälle ist ein eigenes Thema, das weder im bestehenden IT-Security-Prozess noch im Datenschutz-Meldewesen nach Artikel 33 und 34 DSGVO vollständig aufgeht. Hier besteht in vielen Unternehmen eine Lücke, die der Report empirisch belegt.
Der Einsatz autonomer Agenten verlangt strengere Zugriffs-, Protokollierungs- und Freigabekonzepte. Solange strukturierte Benchmarks bei etwa zwei Drittel Erfolgsquote liegen, ist jede Agentenaktion mit Außenwirkung freigabepflichtig zu behandeln.

Stanford AI Index Report 2026

Transparenzhinweis: Dieser Beitrag wurde mit Unterstützung generativer KI (Claude Opus 4.7, Anthropic) erstellt und vor Veröffentlichung redaktionell geprüft.