Zum Inhalt

KI-Verwaltungsassistenz (KIVA) - Referenzarchitektur & -Implementierung für die Öffentliche Verwaltung

Guardrails

Die Referenzarchitektur muss Leitplanken (Guardrails) implementieren, um den sicheren und rechtskonformen Betrieb von KI-Modellen zu gewährleisten. Guardrails fungieren als Firewall zwischen dem Benutzer, dem Modell und externen Systemen. Sie validieren sowohl die Eingabe (Input) als auch die Ausgabe (Output) in Echtzeit.

Schutzziele

Wir unterscheiden zwischen Input- und Output-Guardrails, die jeweils spezifische Risiken adressieren:

Input-Guardrails

Diese Schicht prüft den Prompt des Nutzers, bevor er an das LLM gesendet wird. * DSGVO-Compliance & PII-Schutz: Erkennung und Maskierung/Anonymisierung von personenbezogenen Daten (Namen, IBANs, Adressen), damit diese nicht an externe Modell-Provider abfließen. * Jailbreaking & Prompt Injection: Erkennung von Versuchen, die Sicherheitsmechanismen des Modells zu umgehen (z.B. "Ignore all previous instructions"). * Code-Sicherheit: Verhindern, dass unsicherer oder schädlicher Code zur Ausführung an Agenten übergeben wird. * Themen-Filterung: Blockieren von Anfragen, die gegen die Nutzungsrichtlinien verstoßen (z.B. Gewalt, illegale Aktivitäten).

Output-Guardrails

Diese Schicht prüft die Antwort des Modells, bevor sie dem Nutzer angezeigt wird. * Halluzinationen & Fakten-Check: Überprüfung, ob die Antwort durch den Kontext (RAG) gedeckt ist (Groundedness Check). * Toxizität & Bias: Filtern von beleidigenden oder diskriminierenden Inhalten. * Format-Validierung: Sicherstellen, dass strukturierte Daten (z.B. JSON für Funktionsaufrufe) syntaktisch korrekt sind. * Data Leakage: Verhindern, dass das Modell versehentlich sensitive interne Daten ausgibt.

Open-Source-Frameworks

Neben den etablierten Lösungen existieren mittlerweile spezialisierte Frameworks für Agenten und hochsichere Umgebungen.

LlamaFirewall (Meta)

Ein Framework von Meta, das speziell auf Agentensicherheit fokussiert ist. Es eignet sich hervorragend für Systeme, die Code ausführen oder komplexe Aufgabenketten bearbeiten. * Komponenten: Enthält PromptGuard 2 (Jailbreak-Erkennung), AlignmentCheck (Zielüberprüfung) und CodeShield (Analyse von unsicherem Code). * Einsatz: Ideal für MCP-Server und Agenten, die Zugriff auf Tools haben.

Guardrails AI

Der Standard für strukturierte Daten. Guardrails AI nutzt RAILS-Spezifikationen (ähnlich XML), um Validierungsregeln zu definieren. * Stärke: Exzellent für Schema-Validierung (z.B. "Die Antwort muss ein valides JSON sein und Feld X enthalten"). * Feature: Bietet umfangreiche "Validators" für PII-Anonymisierung und Regex-Matching.

NeMo Guardrails (NVIDIA)

Ein Framework zur Steuerung von Dialogflüssen mittels der Skriptsprache Colang. * Stärke: Hält den Chatbot "auf Schiene" (Topical Rails). Verhindert, dass der Bot über Themen spricht, für die er nicht programmiert wurde. * Einsatz: Ideal für konversationelle Apps, die strikte Dialogabläufe einhalten müssen.

any-guardrail (Mozilla)

Ein Ansatz von Mozilla für eine einheitliche Schnittstelle, um verschiedene Sicherheitsmodelle zu testen und zu orchestrieren. * Fokus: Flexibles Pre- und Post-Processing, ideal für Experimente mit verschiedenen Open-Source-Sicherheitsmodellen.

OpenAI Agents SDK

Ein leichtgewichtiges Framework für Multi-Agent-Workflows. * Besonderheit: Integrierte Input-/Output-Checks, die provider-agnostisch funktionieren (kompatibel mit über 100 LLMs).

Vergleich der Kandidaten

Framework Input-Guardrails (z.B. Jailbreak/DSGVO) Output-Guardrails (z.B. Toxizität/Halluzination) Geeignet für Agentic AI Fokus / Besonderheit
LlamaFirewall PromptGuard 2, Code-Scan CodeShield, AlignmentCheck Stark Agenten-Sicherheit & Code-Execution
Guardrails AI PII-Anonymisierung, Regex Schema-Validierung, Risiko-Mitigation Ja Strukturierte Daten (JSON) & Compliance
NeMo Guardrails Topical Rails, Dialog-Steuerung Fact-Checking, Predefined Responses Ja Konversationssteuerung (Colang)
any-guardrail Modulares Pre-Processing Moderation, Post-Processing Ja Einheitliche API für diverse Modelle
OpenAI Agents SDK Benutzer-Input-Checks Finale Output-Validierung Multi-Agent Leichtgewichtig für Agenten-Workflows