LLM-Gateway

Das LLM-Gateway fungiert als zentrale Middleware und "Reverse Proxy" für alle Interaktionen mit Large Language Models (LLMs). Es entkoppelt die anfragenden Anwendungen von den spezifischen Modell-Backends und stellt eine einheitliche, OpenAI-kompatible Schnittstelle bereit. Dies gewährleistet Herstellerunabhängigkeit (Vendor Independence) und zentrale Kontrolle.

Anforderungen

Das Gateway muss folgende funktionale und nicht-funktionale Anforderungen erfüllen, unterteilt in vier Kernbereiche:

1. Schnittstellen & Interoperabilität

OpenAI-API-Kompatibilität: Bereitstellung von Endpunkten gemäß der OpenAI-Spezifikation, insbesondere:
- /v1/chat/completions bzw. v1/responses(Chat)
- /v1/embeddings (Vektorisierung)
- /v1/models (Model-Listing)
Unified API / Translation: Übersetzung von Anfragen in die proprietären Formate verschiedener Backends (z.B. Azure OpenAI, Bedrock, Vertex AI, HuggingFace TGI, vLLM), sodass der Client nur "eine Sprache" sprechen muss.
Streaming-Support: Volle Unterstützung für Server-Sent Events (SSE) zur asynchronen Token-Ausgabe (Schreibmaschinen-Effekt).

2. Routing & Zuverlässigkeit

Smart Routing: Dynamische Weiterleitung von Anfragen basierend auf Verfügbarkeit, Latenz oder Kosten.
Load Balancing: Verteilung der Last auf mehrere Instanzen eines Modells oder verschiedene Provider.
Fallbacks & Retries: Automatisches Umschalten auf alternative Modelle oder Provider bei Fehlern oder Timeouts (z.B. wenn Azure down ist -> Fallback auf Self-Hosted Modell).
Circuit Breaking: Temporäres Deaktivieren fehlerhafter Backends, um die Systemstabilität zu wahren.

3. Sicherheit & Governance

Zentrale Authentifizierung: Validierung von API-Schlüsseln (API Keys) oder Integration in bestehende IAM-Systeme (OIDC/OAuth2).
Rate Limiting: Begrenzung der Anfragen pro Benutzer, Team oder Organisation (Requests per Minute / Tokens per Minute), um Missbrauch ("Noisy Neighbor") zu verhindern.
Modell-Zugriffssteuerung (RBAC): Granulare Berechtigungen (z.B. "Team HR darf nur GPT-3.5 und Llama-3 nutzen").
PII-Redaction / Data Masking: (Optional) Automatisches Erkennen und Maskieren von personenbezogenen Daten (PII) im Input, bevor dieser an externe Provider gesendet wird.

4. Observability & Kostenmanagement

Token-Usage Tracking: Genaue Erfassung von Input- und Output-Tokens pro Anfrage, User und Kostenstelle.
Spend Management: Festlegen von Budgets (z.B. monatliches Limit pro Team) mit Warnmeldungen oder harten Limits.
Logging & Tracing: Protokollierung von Metadaten (Latenz, Fehlercodes, Token-Anzahl) und optional vollständigen Payloads (unter Beachtung des Datenschutzes) an Log-Provider (z.B. ELK-Stack, Prometheus/Grafana).
Audit Trails: Nachvollziehbarkeit, wer wann welches Modell mit welchen Parametern genutzt hat.

5. Erweiterbarkeit

Caching: (Optional) Semantisches Caching von häufigen Anfragen (z.B. via Redis), um Kosten und Latenz zu reduzieren.
Post-Processing & Guardrails: Integration von Sicherheitsfiltern (z.B. via LLM-Guard oder Langfuse) zur Prüfung auf Halluzinationen oder toxische Inhalte.

Architektur

High-Level Architektur des LLM Gateways

Kandidaten für eine Implementierung

Nachfolgend werden potenzielle Lösungen für das LLM-Gateway evaluiert.

LiteLLM Proxy

LiteLLM ist der aktuelle De-facto-Standard im Open-Source-Bereich für leichtgewichtige Proxy-Lösungen.

Anforderung	Grad der Erfüllung
Open Source	MIT Lizenz (Kern), einige Enterprise-Features sind proprietär
API Standard	Volle OpenAI-Kompatibilität
User Verwaltung	Einfache Verwaltung via Config oder Datenbank (Org/Team/User)
Kosten & Budget	Detailliertes Spend-Management und Token-Tracking integriert
Load Balancing	Unterstützt Priorisierung, Round-Robin und Fallbacks
Authentifizierung	API-Key Management integriert, SSO via Plugins möglich
Observability	Native Integrationen für Langfuse, Prometheus, DataDog, etc.
Besonderheit	Extrem breite Unterstützung von über 100+ LLM-Providern

Bifrost

Bifrost positioniert sich als leistungsstarke Enterprise-Lösung mit Fokus auf Governance und Privacy.

Anforderung	Grad der Erfüllung
Open Source	MIT Lizenz
Fokus	Enterprise Governance, High Performance
Mandantenfähigkeit	Starke Trennung durch Organisationen und Teams
Governance	Granulare Richtlinien (Policies) für Zugriff und Nutzung
Monitoring	Prometheus-Metriken out-of-the-box
Guardrails	Fokus auf PII-Schutz und Halluzinations-Prüfung (Enterprise)

AnyLLM

Ein Projekt von Mozilla AI, das den Fokus auf lokale Ausführung und Datenschutz legt.

Anforderung	Grad der Erfüllung
Open Source	Apache-2.0
Ansatz	Simpler Wrapper für lokale und remote Modelle
Reifegrad	Geringer als LiteLLM, weniger Enterprise-Features (RBAC, Budgets)
Einsatzgebiet	Eher für Entwickler-Setups oder einfache Deployments geeignet