Zum Inhalt

Häufig gestellte Fragen (FAQ)

Allgemeine Fragen

Was ist KIVA?

KIVA (KI-Verwaltungsassistenz) ist eine Open-Source KI-Plattform für die öffentliche Verwaltung. Sie ermöglicht den souveränen Betrieb von Large Language Models (LLMs) und KI-Diensten auf eigener Infrastruktur.

Für wen ist KIVA gedacht?

  • Behörden und Verwaltungen: Souveräne KI-Nutzung ohne Cloud-Abhängigkeit
  • Entwickler: Platform für KI-Anwendungsentwicklung
  • DevOps-Teams: Kubernetes-native KI-Infrastruktur
  • Datenschutzbeauftragte: DSGVO-konforme KI-Lösung

Ist KIVA kostenlos?

Ja, KIVA ist Open Source unter MIT-Lizenz. Die Software selbst ist kostenlos nutzbar. Kosten entstehen durch:

  • Infrastruktur (Server, GPUs, Cloud-Ressourcen)
  • Optional: Kommerzielle LLM-APIs (OpenAI, Azure, Anthropic)
  • Optional: Support und Schulungen

Welche Vorteile bietet KIVA gegenüber kommerziellen Lösungen?

  • Datensouveränität: Daten bleiben in eigener Infrastruktur
  • Transparenz: Vollständiger Quellcode-Zugriff
  • Flexibilität: Anpassbar an spezifische Anforderungen
  • Kosteneffizienz: Keine Vendor Lock-ins
  • On-Premises: Betrieb in eigenen Rechenzentren möglich

Technische Fragen

Welche Modelle werden unterstützt?

Lokale Open-Source Modelle:

  • Llama 3.x (1B - 70B Parameter)
  • Qwen 2.5
  • Mistral / Mixtral
  • Alle vLLM-kompatiblen Modelle

Cloud-Provider:

  • OpenAI (GPT-4, GPT-3.5)
  • Azure OpenAI
  • Anthropic (Claude)
  • Google Vertex AI
  • AWS Bedrock

Benötige ich GPUs?

Für Entwicklung: Nein, Sie können Cloud-APIs oder CPU-basierte Modelle nutzen

Für Produktion (eigene Modelle): Empfohlen

  • Kleine Modelle (1B-3B): 1x NVIDIA T4 oder besser
  • Mittlere Modelle (7B-13B): 1x A10 oder A100
  • Große Modelle (70B+): Mehrere A100 oder H100 GPUs

Welche Kubernetes-Distributionen werden unterstützt?

Alle CNCF-zertifizierten Kubernetes-Distributionen:

  • Azure Kubernetes Service (AKS)
  • StackIT Sovereign Kubernetes Engine (SKE)
  • Open Telecom Cloud Container Engine (CCE)
  • IONOS Managed Kubernetes
  • On-Premises: k3s, RKE, OpenShift

Wie skaliert die Plattform?

  • Horizontal: Automatisches Pod-Scaling basierend auf CPU/Memory
  • Vertikal: GPU-optimierte Node Pools
  • Multi-Region: Deployment über mehrere Rechenzentren
  • Load Balancing: Automatische Verteilung über Modell-Replicas

Installation & Betrieb

Wie schnell kann ich starten?

Lokale Entwicklung: 15-30 Minuten

git clone <repo>
make install-proxy-dev
docker-compose up -d db
poetry run uvicorn litellm.proxy.proxy_server:app

Kubernetes Produktion: 1-2 Stunden (inkl. Cluster-Setup)

helm install kiva-llm-gateway kiva/llm-gateway

Welche Datenbank wird benötigt?

PostgreSQL 15+ (empfohlen):

  • Managed Services: Azure Database, AWS RDS, CloudSQL
  • Self-Hosted: CloudNativePG Operator auf Kubernetes
  • Lokal: Docker PostgreSQL für Entwicklung

Muss ich LiteLLM kennen?

Nein, aber es hilft. KIVA basiert auf LiteLLM, ist aber als eigenständige Plattform dokumentiert. Grundlegende Kubernetes- und Python-Kenntnisse sind hilfreicher.

Wie erfolgen Updates?

GitOps-Ansatz (empfohlen):

# Neue Version in Git committen
git tag v1.1.0
git push origin v1.1.0

# ArgoCD synchronisiert automatisch

Helm direkt:

helm upgrade kiva-llm-gateway kiva/llm-gateway --version 1.1.0

Sicherheit & Compliance

Ist KIVA DSGVO-konform?

Ja, wenn korrekt konfiguriert:

  • ✅ Datenverarbeitung on-premises oder in EU-Cloud
  • ✅ Vollständiges Audit Logging
  • ✅ Granulare Zugriffskontrolle
  • ✅ Keine Telemetrie an Dritte (standardmäßig deaktiviert)

Wichtig: Externe LLM-APIs (OpenAI, etc.) müssen separat auf DSGVO-Konformität geprüft werden.

Wie werden API-Keys verwaltet?

Service Account Model:

  • Master Key für Administration
  • Service-spezifische API-Keys mit Berechtigungen
  • Automatisches Token-Tracking
  • Budget Limits (optional)

Key Storage:

  • PostgreSQL (verschlüsselt)
  • Kubernetes Secrets
  • Externe Key Vaults (Azure Key Vault, HashiCorp Vault)

Werden Logs und Chats gespeichert?

Standardmäßig:

  • ✅ API Request Logs (Audit Trail)
  • ✅ Token-Verbrauch und Kosten
  • ❌ Keine Chat-Inhalte (außer in Client-Anwendung)

Konfigurierbar:

  • Retention Period für Logs
  • Anonymisierung von IP-Adressen
  • Separate Logging-Backend (ELK, Loki)

Gibt es Sicherheits-Audits?

Das Projekt ist Open Source und kann auditiert werden. Behörden führen typischerweise eigene Security Assessments durch. Wir begrüßen verantwortungsvolle Offenlegung von Sicherheitslücken.

Performance & Kosten

Wie hoch sind die Betriebskosten?

Beispiel: Kleine Behörde (100 User)

  • Kubernetes Cluster: ~200€/Monat
  • PostgreSQL: ~50€/Monat
  • 1x GPU Node (T4): ~300€/Monat
  • Gesamt: ~550€/Monat (ohne externe LLM-APIs)

Alternative: Cloud-APIs only

  • Infrastruktur: ~100€/Monat (nur Gateway, keine GPUs)
  • LLM-APIs: Pay-per-Token (z.B. 10€/100k Tokens bei Azure)

Wie schnell ist die Inferenz?

vLLM (lokale Modelle):

  • Llama 3.2 1B: ~50-100 tokens/sec (T4 GPU)
  • Llama 3.2 3B: ~20-40 tokens/sec (T4 GPU)
  • Llama 3.1 70B: ~10-20 tokens/sec (4x A100)

Cloud-APIs:

  • Abhängig vom Provider (typisch 20-50 tokens/sec)

Wie viele Requests kann das System verarbeiten?

LLM Gateway:

  • 1 Pod: ~100-200 req/sec (ohne Backend-Limitierung)
  • 3 Pods (HA): ~300-600 req/sec
  • Auto-Scaling: Unbegrenzt (durch Backend begrenzt)

Inference Backend:

  • vLLM: Abhängig von Modellgröße und GPU (siehe Latenz)
  • Cloud-APIs: Rate Limits des Providers

Entwicklung & Contribution

Wie kann ich beitragen?

Siehe Contributing Guide:

  • Code Contributions via Pull Requests
  • Dokumentation verbessern
  • Bug Reports und Feature Requests
  • Community Support

Welche Programmiersprachen werden verwendet?

  • Backend: Python (FastAPI, LiteLLM)
  • Frontend: TypeScript/React (Web Dashboard)
  • Infrastructure: YAML/Helm (Kubernetes)
  • Scripts: Bash, Make

Gibt es Schulungen oder Workshops?

Geplant:

  • Online-Tutorials auf YouTube
  • Office Hours (monatlich)
  • Workshops für Behörden

Kontakt für Schulungsanfragen: training@kiva.ki4bw.de

Use Cases

Welche Anwendungsfälle sind möglich?

Horizontal (allgemein):

  • Chat-Assistenten für Mitarbeiter
  • Dokumenten-Zusammenfassung
  • Übersetzungen
  • E-Mail-Entwürfe

Vertikal (fachspezifisch):

  • Rechtsdokument-Analyse
  • Antrags-Vorprüfung
  • Bürgeranfragen-Klassifizierung
  • Code-Assistenz für Entwickler

Kann ich RAG (Retrieval Augmented Generation) nutzen?

Ja, über:

  • ChromaDB: Vector Database für Embeddings
  • MCP Servers: Model Context Protocol für Datenquellen
  • RAGFlow: Optionales RAG-Framework (in Planung)

Sind Multi-Agent-Systeme möglich?

Ja, durch:

  • Kombinierte API-Aufrufe
  • Tool-Calling / Function-Calling
  • MCP-Server für Tool-Integration
  • LangChain/CrewAI-Integration (geplant)

Support & Community

Wo finde ich Hilfe?

  1. Dokumentation: Umfassende Guides und Tutorials
  2. GitHub Discussions: Community-Fragen
  3. GitHub Issues: Bug Reports
  4. Matrix Chat: Echtzeit-Support (geplant)

Gibt es kommerziellen Support?

Geplant für Behörden:

  • Dedicated Support-Verträge
  • SLA-basierte Response Times
  • Implementierungs-Beratung
  • Custom Feature Development

Kontakt: enterprise@kiva.ki4bw.de

Wie ist die Release-Frequenz?

  • Patch Releases: Bei Bedarf (Bugfixes)
  • Minor Releases: Monatlich (neue Features)
  • Major Releases: Halbjährlich (Breaking Changes)