Observability
Überblick
Das Observability- und Monitoring-System der KIVA-Plattform basiert auf einem dedizierten Stack zur Überwachung von vLLM (Inference Engine) und LiteLLM (LLM Gateway). Zentrale Komponenten sind:
- Prometheus für Sammlung und Speicherung von Metriken (Latenz, Durchsatz, Fehlerquoten, GPU-Auslastung)
- Grafana mit vorkonfigurierten Dashboards für vLLM- und LiteLLM-Metriken
- Alerting-Regeln für proaktives Monitoring der Systemgesundheit
Architektur
- vLLM und LiteLLM exponieren Prometheus-kompatible
/metrics‑Endpoints. - Prometheus scrapt diese Endpoints und wertet Alert-Regeln aus.
- Grafana visualisiert die Metriken und stellt Dashboards für Betrieb und Analyse bereit.
Kernfunktionen
- Metriken für Performance und Auslastung von vLLM und LiteLLM
- Dashboards mit vorgefertigten Panels (Latenz, Durchsatz, Fehlerquoten, GPU-Nutzung)
- Alerting über Prometheus-Regeln (z. B. High Latency, Service Down, High Error Rate)
Deployment (Überblick)
- Monitoring-Workloads laufen im Namespace
kiva. - Installation erfolgt über Helm-Charts (
prometheus-community/prometheus,grafana/grafana) mit projektspezifischenvalues.yaml. - Zugriff:
- Produktion: über Kong (
/grafana,/prometheus). - Entwicklung: via
kubectl port-forwarddirekt auf Grafana und Prometheus.
Weiterführende Dokumentation
Detaillierte Installations-, Konfigurations- und Dashboards-Beschreibung findet sich im separaten Monitoring-Repository kiva-monitoring (Datei README.md):