Der Einsatz von Red Teaming bei Large Language Models ermöglicht es, die Agilität und Verhaltensweise von LM-Sprachmodellen besser zu verstehen und sie auf potenzielle schädliche Verhaltensweisen zu testen[1][2]. Dabei werden ähnliche Konzepte wie beim Red Teaming im physischen Sicherheitsbereich angewendet, um realistische Angriffsszenarien zu entwickeln und die Reaktion der Sprachmodelle auf diese zu überprüfen.[3] Automatisierte Tests und maschinelles Lernen werden in diesem Zusammenhang verwendet, um unerwartete Verhaltensweisen und Schwachstellen in den Modellen zu identifizieren.[4]
AI Red-Teaming als Begriff wurde im Oktober 2023 im Zuge einer Executive Order des Weißen Hauses eingeführt, die darauf abzielt, KI sicherer zu machen. Es unterscheidet sich von klassischem Red Teaming dadurch, dass hier nicht nur Sicherheitsaspekte untersucht werden, sondern auch allgemeine Risiken wie mangelnde Korrektheit der Antworten eines Sprachmodells, Halluzinationen, toxische oder vulgäre Ausgaben und die Fähigkeit, gefährliche Inhalte zu generieren. Die Executive Order verlangt von Unternehmen, rigorose unabhängige Überprüfungen ihrer KI-Systeme durchzuführen und die Testergebnisse mit der Regierung zu teilen. Dazu werden Richtlinien und Benchmarks zur Bewertung und Prüfung von KI-Fähigkeiten entwickelt, um sicherzustellen, dass diese keine Schäden verursachen können.[5]