Zum Inhalt

KI-Verwaltungsassistenz (KIVA) - Referenzarchitektur & -Implementierung für die Öffentliche Verwaltung

LLM-Gateway

Das LLM-Gateway fungiert als zentrale Middleware und "Reverse Proxy" für alle Interaktionen mit Large Language Models (LLMs). Es entkoppelt die anfragenden Anwendungen von den spezifischen Modell-Backends und stellt eine einheitliche, OpenAI-kompatible Schnittstelle bereit. Dies gewährleistet Herstellerunabhängigkeit (Vendor Independence) und zentrale Kontrolle.

Anforderungen

Das Gateway muss folgende funktionale und nicht-funktionale Anforderungen erfüllen, unterteilt in vier Kernbereiche:

1. Schnittstellen & Interoperabilität

  • OpenAI-API-Kompatibilität: Bereitstellung von Endpunkten gemäß der OpenAI-Spezifikation, insbesondere:
    • /v1/chat/completions bzw. v1/responses(Chat)
    • /v1/embeddings (Vektorisierung)
    • /v1/models (Model-Listing)
  • Unified API / Translation: Übersetzung von Anfragen in die proprietären Formate verschiedener Backends (z.B. Azure OpenAI, Bedrock, Vertex AI, HuggingFace TGI, vLLM), sodass der Client nur "eine Sprache" sprechen muss.
  • Streaming-Support: Volle Unterstützung für Server-Sent Events (SSE) zur asynchronen Token-Ausgabe (Schreibmaschinen-Effekt).

2. Routing & Zuverlässigkeit

  • Smart Routing: Dynamische Weiterleitung von Anfragen basierend auf Verfügbarkeit, Latenz oder Kosten.
  • Load Balancing: Verteilung der Last auf mehrere Instanzen eines Modells oder verschiedene Provider.
  • Fallbacks & Retries: Automatisches Umschalten auf alternative Modelle oder Provider bei Fehlern oder Timeouts (z.B. wenn Azure down ist -> Fallback auf Self-Hosted Modell).
  • Circuit Breaking: Temporäres Deaktivieren fehlerhafter Backends, um die Systemstabilität zu wahren.

3. Sicherheit & Governance

  • Zentrale Authentifizierung: Validierung von API-Schlüsseln (API Keys) oder Integration in bestehende IAM-Systeme (OIDC/OAuth2).
  • Rate Limiting: Begrenzung der Anfragen pro Benutzer, Team oder Organisation (Requests per Minute / Tokens per Minute), um Missbrauch ("Noisy Neighbor") zu verhindern.
  • Modell-Zugriffssteuerung (RBAC): Granulare Berechtigungen (z.B. "Team HR darf nur GPT-3.5 und Llama-3 nutzen").
  • PII-Redaction / Data Masking: (Optional) Automatisches Erkennen und Maskieren von personenbezogenen Daten (PII) im Input, bevor dieser an externe Provider gesendet wird.

4. Observability & Kostenmanagement

  • Token-Usage Tracking: Genaue Erfassung von Input- und Output-Tokens pro Anfrage, User und Kostenstelle.
  • Spend Management: Festlegen von Budgets (z.B. monatliches Limit pro Team) mit Warnmeldungen oder harten Limits.
  • Logging & Tracing: Protokollierung von Metadaten (Latenz, Fehlercodes, Token-Anzahl) und optional vollständigen Payloads (unter Beachtung des Datenschutzes) an Log-Provider (z.B. ELK-Stack, Prometheus/Grafana).
  • Audit Trails: Nachvollziehbarkeit, wer wann welches Modell mit welchen Parametern genutzt hat.

5. Erweiterbarkeit

  • Caching: (Optional) Semantisches Caching von häufigen Anfragen (z.B. via Redis), um Kosten und Latenz zu reduzieren.
  • Post-Processing & Guardrails: Integration von Sicherheitsfiltern (z.B. via LLM-Guard oder Langfuse) zur Prüfung auf Halluzinationen oder toxische Inhalte.

Architektur

High-Level Architektur des LLM Gateways

Kandidaten für eine Implementierung

Nachfolgend werden potenzielle Lösungen für das LLM-Gateway evaluiert.

LiteLLM Proxy

LiteLLM ist der aktuelle De-facto-Standard im Open-Source-Bereich für leichtgewichtige Proxy-Lösungen.

Anforderung Grad der Erfüllung
Open Source MIT Lizenz (Kern), einige Enterprise-Features sind proprietär
API Standard Volle OpenAI-Kompatibilität
User Verwaltung Einfache Verwaltung via Config oder Datenbank (Org/Team/User)
Kosten & Budget Detailliertes Spend-Management und Token-Tracking integriert
Load Balancing Unterstützt Priorisierung, Round-Robin und Fallbacks
Authentifizierung API-Key Management integriert, SSO via Plugins möglich
Observability Native Integrationen für Langfuse, Prometheus, DataDog, etc.
Besonderheit Extrem breite Unterstützung von über 100+ LLM-Providern

Bifrost

Bifrost positioniert sich als leistungsstarke Enterprise-Lösung mit Fokus auf Governance und Privacy.

Anforderung Grad der Erfüllung
Open Source MIT Lizenz
Fokus Enterprise Governance, High Performance
Mandantenfähigkeit Starke Trennung durch Organisationen und Teams
Governance Granulare Richtlinien (Policies) für Zugriff und Nutzung
Monitoring Prometheus-Metriken out-of-the-box
Guardrails Fokus auf PII-Schutz und Halluzinations-Prüfung (Enterprise)

AnyLLM

Ein Projekt von Mozilla AI, das den Fokus auf lokale Ausführung und Datenschutz legt.

Anforderung Grad der Erfüllung
Open Source Apache-2.0
Ansatz Simpler Wrapper für lokale und remote Modelle
Reifegrad Geringer als LiteLLM, weniger Enterprise-Features (RBAC, Budgets)
Einsatzgebiet Eher für Entwickler-Setups oder einfache Deployments geeignet