Zum Inhalt

Observability

Überblick

Das Observability- und Monitoring-System der KIVA-Plattform basiert auf einem dedizierten Stack zur Überwachung von vLLM (Inference Engine) und LiteLLM (LLM Gateway). Zentrale Komponenten sind:

  • Prometheus für Sammlung und Speicherung von Metriken (Latenz, Durchsatz, Fehlerquoten, GPU-Auslastung)
  • Grafana mit vorkonfigurierten Dashboards für vLLM- und LiteLLM-Metriken
  • Alerting-Regeln für proaktives Monitoring der Systemgesundheit

Architektur

  • vLLM und LiteLLM exponieren Prometheus-kompatible /metrics‑Endpoints.
  • Prometheus scrapt diese Endpoints und wertet Alert-Regeln aus.
  • Grafana visualisiert die Metriken und stellt Dashboards für Betrieb und Analyse bereit.

Kernfunktionen

  • Metriken für Performance und Auslastung von vLLM und LiteLLM
  • Dashboards mit vorgefertigten Panels (Latenz, Durchsatz, Fehlerquoten, GPU-Nutzung)
  • Alerting über Prometheus-Regeln (z. B. High Latency, Service Down, High Error Rate)

Deployment (Überblick)

  • Monitoring-Workloads laufen im Namespace kiva.
  • Installation erfolgt über Helm-Charts (prometheus-community/prometheus, grafana/grafana) mit projektspezifischen values.yaml.
  • Zugriff:
  • Produktion: über Kong (/grafana, /prometheus).
  • Entwicklung: via kubectl port-forward direkt auf Grafana und Prometheus.

Weiterführende Dokumentation

Detaillierte Installations-, Konfigurations- und Dashboards-Beschreibung findet sich im separaten Monitoring-Repository kiva-monitoring (Datei README.md):