LLM-Gateway
Das LLM-Gateway fungiert als zentrale Middleware und "Reverse Proxy" für alle Interaktionen mit Large Language Models (LLMs). Es entkoppelt die anfragenden Anwendungen von den spezifischen Modell-Backends und stellt eine einheitliche, OpenAI-kompatible Schnittstelle bereit. Dies gewährleistet Herstellerunabhängigkeit (Vendor Independence) und zentrale Kontrolle.
Anforderungen
Das Gateway muss folgende funktionale und nicht-funktionale Anforderungen erfüllen, unterteilt in vier Kernbereiche:
1. Schnittstellen & Interoperabilität
- OpenAI-API-Kompatibilität: Bereitstellung von Endpunkten gemäß der OpenAI-Spezifikation, insbesondere:
/v1/chat/completionsbzw.v1/responses(Chat)/v1/embeddings(Vektorisierung)/v1/models(Model-Listing)
- Unified API / Translation: Übersetzung von Anfragen in die proprietären Formate verschiedener Backends (z.B. Azure OpenAI, Bedrock, Vertex AI, HuggingFace TGI, vLLM), sodass der Client nur "eine Sprache" sprechen muss.
- Streaming-Support: Volle Unterstützung für Server-Sent Events (SSE) zur asynchronen Token-Ausgabe (Schreibmaschinen-Effekt).
2. Routing & Zuverlässigkeit
- Smart Routing: Dynamische Weiterleitung von Anfragen basierend auf Verfügbarkeit, Latenz oder Kosten.
- Load Balancing: Verteilung der Last auf mehrere Instanzen eines Modells oder verschiedene Provider.
- Fallbacks & Retries: Automatisches Umschalten auf alternative Modelle oder Provider bei Fehlern oder Timeouts (z.B. wenn Azure down ist -> Fallback auf Self-Hosted Modell).
- Circuit Breaking: Temporäres Deaktivieren fehlerhafter Backends, um die Systemstabilität zu wahren.
3. Sicherheit & Governance
- Zentrale Authentifizierung: Validierung von API-Schlüsseln (API Keys) oder Integration in bestehende IAM-Systeme (OIDC/OAuth2).
- Rate Limiting: Begrenzung der Anfragen pro Benutzer, Team oder Organisation (Requests per Minute / Tokens per Minute), um Missbrauch ("Noisy Neighbor") zu verhindern.
- Modell-Zugriffssteuerung (RBAC): Granulare Berechtigungen (z.B. "Team HR darf nur GPT-3.5 und Llama-3 nutzen").
- PII-Redaction / Data Masking: (Optional) Automatisches Erkennen und Maskieren von personenbezogenen Daten (PII) im Input, bevor dieser an externe Provider gesendet wird.
4. Observability & Kostenmanagement
- Token-Usage Tracking: Genaue Erfassung von Input- und Output-Tokens pro Anfrage, User und Kostenstelle.
- Spend Management: Festlegen von Budgets (z.B. monatliches Limit pro Team) mit Warnmeldungen oder harten Limits.
- Logging & Tracing: Protokollierung von Metadaten (Latenz, Fehlercodes, Token-Anzahl) und optional vollständigen Payloads (unter Beachtung des Datenschutzes) an Log-Provider (z.B. ELK-Stack, Prometheus/Grafana).
- Audit Trails: Nachvollziehbarkeit, wer wann welches Modell mit welchen Parametern genutzt hat.
5. Erweiterbarkeit
- Caching: (Optional) Semantisches Caching von häufigen Anfragen (z.B. via Redis), um Kosten und Latenz zu reduzieren.
- Post-Processing & Guardrails: Integration von Sicherheitsfiltern (z.B. via LLM-Guard oder Langfuse) zur Prüfung auf Halluzinationen oder toxische Inhalte.
Architektur

Kandidaten für eine Implementierung
Nachfolgend werden potenzielle Lösungen für das LLM-Gateway evaluiert.
LiteLLM ist der aktuelle De-facto-Standard im Open-Source-Bereich für leichtgewichtige Proxy-Lösungen.
| Anforderung | Grad der Erfüllung |
|---|---|
| Open Source | MIT Lizenz (Kern), einige Enterprise-Features sind proprietär |
| API Standard | Volle OpenAI-Kompatibilität |
| User Verwaltung | Einfache Verwaltung via Config oder Datenbank (Org/Team/User) |
| Kosten & Budget | Detailliertes Spend-Management und Token-Tracking integriert |
| Load Balancing | Unterstützt Priorisierung, Round-Robin und Fallbacks |
| Authentifizierung | API-Key Management integriert, SSO via Plugins möglich |
| Observability | Native Integrationen für Langfuse, Prometheus, DataDog, etc. |
| Besonderheit | Extrem breite Unterstützung von über 100+ LLM-Providern |
Bifrost positioniert sich als leistungsstarke Enterprise-Lösung mit Fokus auf Governance und Privacy.
| Anforderung | Grad der Erfüllung |
|---|---|
| Open Source | MIT Lizenz |
| Fokus | Enterprise Governance, High Performance |
| Mandantenfähigkeit | Starke Trennung durch Organisationen und Teams |
| Governance | Granulare Richtlinien (Policies) für Zugriff und Nutzung |
| Monitoring | Prometheus-Metriken out-of-the-box |
| Guardrails | Fokus auf PII-Schutz und Halluzinations-Prüfung (Enterprise) |
Ein Projekt von Mozilla AI, das den Fokus auf lokale Ausführung und Datenschutz legt.
| Anforderung | Grad der Erfüllung |
|---|---|
| Open Source | Apache-2.0 |
| Ansatz | Simpler Wrapper für lokale und remote Modelle |
| Reifegrad | Geringer als LiteLLM, weniger Enterprise-Features (RBAC, Budgets) |
| Einsatzgebiet | Eher für Entwickler-Setups oder einfache Deployments geeignet |