Observability

Überblick

Das Observability- und Monitoring-System der KIVA-Plattform basiert auf einem dedizierten Stack zur Überwachung von vLLM (Inference Engine) und LiteLLM (LLM Gateway). Zentrale Komponenten sind:

Prometheus für Sammlung und Speicherung von Metriken (Latenz, Durchsatz, Fehlerquoten, GPU-Auslastung)
Grafana mit vorkonfigurierten Dashboards für vLLM- und LiteLLM-Metriken
Alerting-Regeln für proaktives Monitoring der Systemgesundheit

Architektur

vLLM und LiteLLM exponieren Prometheus-kompatible /metrics‑Endpoints.
Prometheus scrapt diese Endpoints und wertet Alert-Regeln aus.
Grafana visualisiert die Metriken und stellt Dashboards für Betrieb und Analyse bereit.

Kernfunktionen

Metriken für Performance und Auslastung von vLLM und LiteLLM
Dashboards mit vorgefertigten Panels (Latenz, Durchsatz, Fehlerquoten, GPU-Nutzung)
Alerting über Prometheus-Regeln (z. B. High Latency, Service Down, High Error Rate)

Deployment (Überblick)

Monitoring-Workloads laufen im Namespace kiva.
Installation erfolgt über Helm-Charts (prometheus-community/prometheus, grafana/grafana) mit projektspezifischen values.yaml.
Zugriff:
Produktion: über Kong (/grafana, /prometheus).
Entwicklung: via kubectl port-forward direkt auf Grafana und Prometheus.

Weiterführende Dokumentation

Detaillierte Installations-, Konfigurations- und Dashboards-Beschreibung findet sich im separaten Monitoring-Repository kiva-monitoring (Datei README.md):

Repository: https://gitlab.opencode.de/baden-wuerttemberg/innenministerium/kiva.apps/kiva-monitoring