Guardrails
Die Referenzarchitektur muss Leitplanken (Guardrails) implementieren, um den sicheren und rechtskonformen Betrieb von KI-Modellen zu gewährleisten. Guardrails fungieren als Firewall zwischen dem Benutzer, dem Modell und externen Systemen. Sie validieren sowohl die Eingabe (Input) als auch die Ausgabe (Output) in Echtzeit.
Schutzziele
Wir unterscheiden zwischen Input- und Output-Guardrails, die jeweils spezifische Risiken adressieren:
Input-Guardrails
Diese Schicht prüft den Prompt des Nutzers, bevor er an das LLM gesendet wird. * DSGVO-Compliance & PII-Schutz: Erkennung und Maskierung/Anonymisierung von personenbezogenen Daten (Namen, IBANs, Adressen), damit diese nicht an externe Modell-Provider abfließen. * Jailbreaking & Prompt Injection: Erkennung von Versuchen, die Sicherheitsmechanismen des Modells zu umgehen (z.B. "Ignore all previous instructions"). * Code-Sicherheit: Verhindern, dass unsicherer oder schädlicher Code zur Ausführung an Agenten übergeben wird. * Themen-Filterung: Blockieren von Anfragen, die gegen die Nutzungsrichtlinien verstoßen (z.B. Gewalt, illegale Aktivitäten).
Output-Guardrails
Diese Schicht prüft die Antwort des Modells, bevor sie dem Nutzer angezeigt wird. * Halluzinationen & Fakten-Check: Überprüfung, ob die Antwort durch den Kontext (RAG) gedeckt ist (Groundedness Check). * Toxizität & Bias: Filtern von beleidigenden oder diskriminierenden Inhalten. * Format-Validierung: Sicherstellen, dass strukturierte Daten (z.B. JSON für Funktionsaufrufe) syntaktisch korrekt sind. * Data Leakage: Verhindern, dass das Modell versehentlich sensitive interne Daten ausgibt.
Open-Source-Frameworks
Neben den etablierten Lösungen existieren mittlerweile spezialisierte Frameworks für Agenten und hochsichere Umgebungen.
LlamaFirewall (Meta)
Ein Framework von Meta, das speziell auf Agentensicherheit fokussiert ist. Es eignet sich hervorragend für Systeme, die Code ausführen oder komplexe Aufgabenketten bearbeiten. * Komponenten: Enthält PromptGuard 2 (Jailbreak-Erkennung), AlignmentCheck (Zielüberprüfung) und CodeShield (Analyse von unsicherem Code). * Einsatz: Ideal für MCP-Server und Agenten, die Zugriff auf Tools haben.
Guardrails AI
Der Standard für strukturierte Daten. Guardrails AI nutzt RAILS-Spezifikationen (ähnlich XML), um Validierungsregeln zu definieren. * Stärke: Exzellent für Schema-Validierung (z.B. "Die Antwort muss ein valides JSON sein und Feld X enthalten"). * Feature: Bietet umfangreiche "Validators" für PII-Anonymisierung und Regex-Matching.
NeMo Guardrails (NVIDIA)
Ein Framework zur Steuerung von Dialogflüssen mittels der Skriptsprache Colang. * Stärke: Hält den Chatbot "auf Schiene" (Topical Rails). Verhindert, dass der Bot über Themen spricht, für die er nicht programmiert wurde. * Einsatz: Ideal für konversationelle Apps, die strikte Dialogabläufe einhalten müssen.
any-guardrail (Mozilla)
Ein Ansatz von Mozilla für eine einheitliche Schnittstelle, um verschiedene Sicherheitsmodelle zu testen und zu orchestrieren. * Fokus: Flexibles Pre- und Post-Processing, ideal für Experimente mit verschiedenen Open-Source-Sicherheitsmodellen.
OpenAI Agents SDK
Ein leichtgewichtiges Framework für Multi-Agent-Workflows. * Besonderheit: Integrierte Input-/Output-Checks, die provider-agnostisch funktionieren (kompatibel mit über 100 LLMs).
Vergleich der Kandidaten
| Framework | Input-Guardrails (z.B. Jailbreak/DSGVO) | Output-Guardrails (z.B. Toxizität/Halluzination) | Geeignet für Agentic AI | Fokus / Besonderheit |
|---|---|---|---|---|
| LlamaFirewall | PromptGuard 2, Code-Scan | CodeShield, AlignmentCheck | Stark | Agenten-Sicherheit & Code-Execution |
| Guardrails AI | PII-Anonymisierung, Regex | Schema-Validierung, Risiko-Mitigation | Ja | Strukturierte Daten (JSON) & Compliance |
| NeMo Guardrails | Topical Rails, Dialog-Steuerung | Fact-Checking, Predefined Responses | Ja | Konversationssteuerung (Colang) |
| any-guardrail | Modulares Pre-Processing | Moderation, Post-Processing | Ja | Einheitliche API für diverse Modelle |
| OpenAI Agents SDK | Benutzer-Input-Checks | Finale Output-Validierung | Multi-Agent | Leichtgewichtig für Agenten-Workflows |