KIVA-Plattform – Architektur

Überblick

Die KIVA-Plattform nutzt eine flexible Gateway-Architektur mit dem LLM Gateway als Kern, die Sicherheit, Flexibilität und Performance optimal vereint. Kong Gateway kann optional als zusätzliche Sicherheitsebene hinzugefügt werden.

⚠️ Hinweis: Die aktuelle Implementierung auf Azure Kubernetes Service (AKS) dient als Proof of Concept (POC) für Evaluierungszwecke. Die Architektur ist cloud-agnostic und kann jederzeit auf andere Cloud-Provider oder On-Premise-Infrastruktur migriert werden.

Architektur-Prinzipien

1. LLM Gateway als zentrales Herzstück

Das Herzstück: LLM Gateway

Die KIVA-Plattform basiert auf einem Fork von LiteLLM v1.74.4 - dem zentralen LLM Gateway, das alle Kernfunktionen bereitstellt:

Einheitliche API für 100+ LLM-Anbieter (OpenAI-kompatibel)
Authentifizierung & Autorisierung (API Keys, Teams, User Accounts)
Budget-Management und Kostenkontrolle
Rate Limiting und Token-Limits
Modell-Routing und Load Balancing
Monitoring, Logging und Metriken (Prometheus)
Response Caching (Redis)
Web-Dashboard für Administration

Wichtig: Der LLM Gateway ist ein vollständig eigenständiger AI Gateway und benötigt keine zusätzlichen Komponenten für seine Kernfunktionen.

2. Optionale Infrastructure-Layer (Kong)

Kong Gateway - Enterprise Add-on

Kong kann als optionale zusätzliche Sicherheitsebene hinzugefügt werden:

Zusätzliche TLS-Terminierung
Erweiterte DDoS-Protection
IP-Whitelisting
Weitere Enterprise-Features

Wichtig: Kong ist nicht notwendig für den Betrieb der Plattform. Der LLM Gateway kann direkt angesprochen werden.

Vorteil: Flexible Architektur - von minimal (nur LLM Gateway) bis enterprise (LLM Gateway + Kong)

Komponenten-Übersicht

Minimale Architektur (Core):

flowchart TD Client["Client Applications
Open WebUI, F13, Custom Apps, ..."] Gateway["LLM Gateway (Fork v1.74.4)
• OpenAI-compatible API
• Authentication & API Keys
• Model Routing & Load Balancing
• Budget Control & Cost Tracking
• Rate Limiting & Token Limits
• Caching (Redis)
• Monitoring (Prometheus)
• Web Dashboard"] vLLM["Inference Engine (vLLM - Lokal)
• GPU-optimiert
• Open Source
• Kostenfrei"] APIs["Externe APIs
• OpenAI
• Anthropic
• Azure"] Client -->|HTTPS/TLS| Gateway Gateway --> vLLM Gateway --> APIs style Client fill:#e1f5ff style Gateway fill:#fff3e0 style vLLM fill:#f3e5f5 style APIs fill:#f3e5f5

Enterprise Architektur (mit Kong - optional):

flowchart TD Client["Client Applications
Open WebUI, F13, Custom Apps, ..."] Kong["Kong Gateway (Optional - Enterprise Security Add-on)
• Zusätzliche TLS
• DDoS Protection
• IP Filtering"] Gateway["LLM Gateway (Fork v1.74.4)
• OpenAI-compatible API
• Authentication
• Model Routing
• Budget Control
• Rate Limiting
• Monitoring
• Caching
• Web Dashboard"] vLLM["Inference Engine (vLLM - Lokal)
• GPU-optimiert
• Open Source"] APIs["Externe APIs
• OpenAI
• Anthropic
• Azure"] Client -->|HTTPS/TLS| Kong Kong --> Gateway Gateway --> vLLM Gateway --> APIs style Client fill:#e1f5ff style Kong fill:#fff9e6 style Gateway fill:#fff3e0 style vLLM fill:#f3e5f5 style APIs fill:#f3e5f5

Kernprinzipien

LLM Gateway Fork für Souveränität

Eigener Fork für die Verwaltung

Die Plattform nutzt einen Fork von LiteLLM v1.74.4, angepasst für die Anforderungen der öffentlichen Verwaltung:

MIT-Lizenz: Enterprise-Ordner entfernt, nur Open-Source-Code
Fokus auf Grundfunktionalitäten: Schlanke Referenzimplementierung
Souveränität: Volle Kontrolle über Code und Weiterentwicklung
Upstream-kompatibel: Orientierung an LiteLLM-Standards

Repository: /litellm/ (interner Fork)

Sicherheit Built-In

Der LLM Gateway bringt Sicherheitsfunktionen bereits mit:

Authentifizierung: API-Key-Management, User & Team Accounts
Autorisierung: Token Limits, Rate Limiting pro User/Team
Budget-Kontrolle: Automatische Kostenkontrolle und Limits
Audit-Logging: Vollständige Nachverfolgbarkeit aller Anfragen
TLS-Support: Verschlüsselte Kommunikation

Optional mit Kong:

Zusätzliche DDoS-Protection
IP-Whitelisting
Weitere Enterprise-Features

Ergebnis: Sicherheit bereits in der Kern-Komponente, Kong nur als Add-on

Modulare Architektur

Jede Komponente ist unabhängig skalierbar:

LLM Gateway: Mehrere Instanzen für Last-Verteilung (Kern-Komponente)
Inference Engine (vLLM): GPU-Pods nach Bedarf hinzufügen
Kong Gateway: Optional, horizontal skalierbar
Client Apps: Unabhängig deploybar

Vorteil: Optimale Ressourcen-Nutzung, keine Über-Provisionierung. Der LLM Gateway läuft auch standalone.

Cloud-Agnostic Design

Keine Abhängigkeit von spezifischen Cloud-Diensten:

Standard Kubernetes: Läuft auf Azure, AWS, GCP, On-Premise
Helm Charts: Plattformunabhängige Deployments
Portable Konfiguration: Keine cloud-spezifischen APIs

Aktueller POC: Azure Kubernetes Service (West Europe)

Zukünftige Optionen:

AWS Elastic Kubernetes Service (EKS)
Google Kubernetes Engine (GKE)
On-Premise Kubernetes
OpenShift

Vorteil: Volle Flexibilität bei Infrastruktur-Entscheidungen

Datenfluss

Typische Anfrage-Verarbeitung

Minimale Architektur (ohne Kong):

1. Client sendet Anfrage an LLM Gateway
   ↓
2. LLM Gateway prüft:
   • API-Key gültig?
   • Rate Limit erreicht?
   • Budget verfügbar?
   • Welches Modell verwenden?
   ↓
3. Modell-Auswahl:
   • Lokales vLLM? → Keine externen Kosten
   • Externe API? → Kosten tracken
   • Cache verfügbar? → < 50ms Antwort
   ↓
4. Antwort wird zurückgegeben
   • Kosten werden erfasst
   • Logs werden geschrieben
   • Metrics werden aktualisiert (Prometheus)

Mit Kong (Enterprise):

1. Client sendet Anfrage
   ↓
2. Kong Gateway prüft (optional):
   • TLS-Verbindung gültig?
   • IP-Whitelist?
   • DDoS-Protection
   ↓
3. LLM Gateway prüft:
   • API-Key gültig?
   • Rate Limit & Budget?
   • Modell-Routing
   ↓
4. Modell-Inferenz & Antwort

Durchschnittliche Latenz:

Lokale Modelle (vLLM): 500-1500ms
Externe APIs: 1000-3000ms
Cache-Hit: < 50ms

Skalierbarkeit

Horizontale Skalierung

Alle Komponenten sind stateless:

Kong Gateway:     2-10 Pods (Auto-Scaling, optional)
LLM Gateway:      2-8 Pods (Auto-Scaling)
Inference Engine: 1-4 GPU-Pods (nach Bedarf)
Redis Cache:      3 Pods (High Availability)

Auto-Scaling-Trigger:

CPU-Auslastung > 70%
Request-Queue-Länge
Antwortzeit > Threshold

Lastverteilung

Intelligentes Load Balancing:

Kong (optional): Round-Robin über LLM Gateway-Instanzen
LLM Gateway: Modell-basiertes Routing
- Lokale Modelle bevorzugt (kostenfrei)
- Fallback auf externe APIs bei Überlast
Inference Engine: Continuous Batching für GPU-Effizienz

Hochverfügbarkeit

Fallback-Mechanismen

Automatische Fehlerbehandlung:

Modell-Gruppe: gpt-4
  1. Primär: vllm/local-llama (lokal)
     ↓ (bei Ausfall/Überlast)
  2. Fallback 1: azure/gpt-4-turbo
     ↓ (bei Ausfall)
  3. Fallback 2: openai/gpt-4

Automatische Erkennung:

Timeouts (> 30s)
HTTP-Fehler (500, 502, 503)
Rate-Limits überschritten

Disaster Recovery

Backup-Strategien:

Konfiguration: Versioniert in Git (GitOps)
Daten: PostgreSQL Backups (täglich)
Secrets: Verschlüsselt in Kubernetes Secrets
Monitoring: Prometheus Daten-Retention 30 Tage

Recovery Time Objective (RTO): < 1 Stunde

Recovery Point Objective (RPO): < 24 Stunden

Monitoring und Observability

Drei-Ebenen-Monitoring

1. Infrastruktur-Ebene:

Kubernetes Cluster Health
Node-Ressourcen (CPU, RAM, GPU)
Network-Metriken

2. Anwendungs-Ebene:

Kong Request-Metriken (optional)
LLM Gateway Performance
Inference Engine GPU-Auslastung

3. Business-Ebene:

Kosten pro Team
Modell-Nutzung
Budget-Auslastung

Tools: Prometheus, Grafana, Azure Monitor

Sicherheits-Architektur

Netzwerk-Segmentierung

Internet
  ↓
[Azure Load Balancer]
  ↓
[Kong Gateway] ←→ [External Proxy]
  ↓
[LLM Gateway]
  ↓ ↓
[Inference Engine] [Redis]

Network Policies:

Nur Kong hat externe IP
Interne Services nur über Service-Mesh
Outbound-Traffic über kontrollierten Proxy

Secrets Management

Sensitive Daten geschützt:

API-Keys: Kubernetes Secrets
Zertifikate: Cert-Manager
Datenbank-Passwörter: Azure Key Vault (POC) / Vault (Production)
Rotation: Automatisch alle 90 Tage

Deployment-Architektur

GitOps mit Helmfile

Deklarative Infrastruktur:

Code-Änderung → Git Push → ArgoCD erkennt → Deployment

Vorteile:

Vollständige Versionskontrolle
Automatische Rollbacks bei Fehlern
Reproduzierbare Deployments
Audit-Trail aller Änderungen

Zusammenfassung

Aspekt	Lösung
Gateway	LLM Gateway (Kong optional)
Modelle	Lokal (vLLM) + Externe APIs
Skalierung	Horizontal, Auto-Scaling
Verfügbarkeit	Fallbacks, Load Balancing
Sicherheit	Defense-in-Depth, Multi-Layer
Deployment	GitOps, Helmfile, Kubernetes
Cloud	Agnostic (aktuell Azure POC)