AI Red-Teaming

Der Einsatz von Red Teaming bei Large Language Models ermöglicht es, die Agilität und Verhaltensweise von LM-Sprachmodellen besser zu verstehen und sie auf potenzielle schädliche Verhaltensweisen zu testen^[1]^[2]. Dabei werden ähnliche Konzepte wie beim Red Teaming im physischen Sicherheitsbereich angewendet, um realistische Angriffsszenarien zu entwickeln und die Reaktion der Sprachmodelle auf diese zu überprüfen.^[3] Automatisierte Tests und maschinelles Lernen werden in diesem Zusammenhang verwendet, um unerwartete Verhaltensweisen und Schwachstellen in den Modellen zu identifizieren.^[4]

AI Red-Teaming als Begriff wurde im Oktober 2023 im Zuge einer Executive Order des Weißen Hauses eingeführt, die darauf abzielt, KI sicherer zu machen. Es unterscheidet sich von klassischem Red Teaming dadurch, dass hier nicht nur Sicherheitsaspekte untersucht werden, sondern auch allgemeine Risiken wie mangelnde Korrektheit der Antworten eines Sprachmodells, Halluzinationen, toxische oder vulgäre Ausgaben und die Fähigkeit, gefährliche Inhalte zu generieren. Die Executive Order verlangt von Unternehmen, rigorose unabhängige Überprüfungen ihrer KI-Systeme durchzuführen und die Testergebnisse mit der Regierung zu teilen. Dazu werden Richtlinien und Benchmarks zur Bewertung und Prüfung von KI-Fähigkeiten entwickelt, um sicherzustellen, dass diese keine Schäden verursachen können.^[5]

↑ Kira Hutchinson: Red Teaming Agility (Briefing Charts). Defense Technical Information Center, Fort Belvoir, VA 1. Juni 2014 (dtic.mil [abgerufen am 7. Februar 2024]).
↑ RedTeamer IT Security: Eine Analyse von Red Teaming von Sprachmodellen: Aufdecken und Beheben schädlicher Verhaltensweisen. 20. Juli 2023, abgerufen am 20. Juli 2023 (deutsch).
↑ Erin E. Bonar, Harold Rosenberg: Using the health belief model to predict injecting drug users' intentions to employ harm reduction strategies. In: Addictive Behaviors. Band 36, Nr. 11, November 2011, ISSN 0306-4603, S. 1038–1044 (arxiv.org [PDF; abgerufen am 20. Juli 2023]).
↑ Problem Solving, Simulation, and Computational Red Teaming. In: Simulation and Computational Red Teaming for Problem Solving. 18. Oktober 2019, S. 1–9, doi:10.1002/9781119527183.ch1 (eingeschränkte Vorschau in der Google-Buchsuche).
↑ Weißes Haus: Executive Order on the Safe, Secure, and Trustworthy Development and Use of Artificial Intelligence. 30. Oktober 2023, abgerufen am 22. Juni 2024 (amerikanisches Englisch).

[1] Kira Hutchinson: Red Teaming Agility (Briefing Charts). Defense Technical Information Center, Fort Belvoir, VA 1. Juni 2014 (dtic.mil [abgerufen am 7. Februar 2024]).

[2] RedTeamer IT Security: Eine Analyse von Red Teaming von Sprachmodellen: Aufdecken und Beheben schädlicher Verhaltensweisen. 20. Juli 2023, abgerufen am 20. Juli 2023 (deutsch).

[3] Erin E. Bonar, Harold Rosenberg: Using the health belief model to predict injecting drug users' intentions to employ harm reduction strategies. In: Addictive Behaviors. Band 36, Nr. 11, November 2011, ISSN 0306-4603, S. 1038–1044 (arxiv.org [PDF; abgerufen am 20. Juli 2023]).

[4] Problem Solving, Simulation, and Computational Red Teaming. In: Simulation and Computational Red Teaming for Problem Solving. 18. Oktober 2019, S. 1–9, doi:10.1002/9781119527183.ch1 (eingeschränkte Vorschau in der Google-Buchsuche).

[5] Weißes Haus: Executive Order on the Safe, Secure, and Trustworthy Development and Use of Artificial Intelligence. 30. Oktober 2023, abgerufen am 22. Juni 2024 (amerikanisches Englisch).

[1]

[2]

[3]

[4]

[5]

AI Red-Teaming

From Wikipedia, the free encyclopedia · View on Wikipedia