Häufig gestellte Fragen (FAQ)

Allgemeine Fragen

Was ist KIVA?

KIVA (KI-Verwaltungsassistenz) ist eine Open-Source KI-Plattform für die öffentliche Verwaltung. Sie ermöglicht den souveränen Betrieb von Large Language Models (LLMs) und KI-Diensten auf eigener Infrastruktur.

Für wen ist KIVA gedacht?

Behörden und Verwaltungen: Souveräne KI-Nutzung ohne Cloud-Abhängigkeit
Entwickler: Platform für KI-Anwendungsentwicklung
DevOps-Teams: Kubernetes-native KI-Infrastruktur
Datenschutzbeauftragte: DSGVO-konforme KI-Lösung

Ist KIVA kostenlos?

Ja, KIVA ist Open Source unter MIT-Lizenz. Die Software selbst ist kostenlos nutzbar. Kosten entstehen durch:

Infrastruktur (Server, GPUs, Cloud-Ressourcen)
Optional: Kommerzielle LLM-APIs (OpenAI, Azure, Anthropic)
Optional: Support und Schulungen

Welche Vorteile bietet KIVA gegenüber kommerziellen Lösungen?

Datensouveränität: Daten bleiben in eigener Infrastruktur
Transparenz: Vollständiger Quellcode-Zugriff
Flexibilität: Anpassbar an spezifische Anforderungen
Kosteneffizienz: Keine Vendor Lock-ins
On-Premises: Betrieb in eigenen Rechenzentren möglich

Technische Fragen

Welche Modelle werden unterstützt?

Lokale Open-Source Modelle:

Llama 3.x (1B - 70B Parameter)
Qwen 2.5
Mistral / Mixtral
Alle vLLM-kompatiblen Modelle

Cloud-Provider:

OpenAI (GPT-4, GPT-3.5)
Azure OpenAI
Anthropic (Claude)
Google Vertex AI
AWS Bedrock

Benötige ich GPUs?

Für Entwicklung: Nein, Sie können Cloud-APIs oder CPU-basierte Modelle nutzen

Für Produktion (eigene Modelle): Empfohlen

Kleine Modelle (1B-3B): 1x NVIDIA T4 oder besser
Mittlere Modelle (7B-13B): 1x A10 oder A100
Große Modelle (70B+): Mehrere A100 oder H100 GPUs

Welche Kubernetes-Distributionen werden unterstützt?

Alle CNCF-zertifizierten Kubernetes-Distributionen:

Azure Kubernetes Service (AKS)
StackIT Sovereign Kubernetes Engine (SKE)
Open Telecom Cloud Container Engine (CCE)
IONOS Managed Kubernetes
On-Premises: k3s, RKE, OpenShift

Wie skaliert die Plattform?

Horizontal: Automatisches Pod-Scaling basierend auf CPU/Memory
Vertikal: GPU-optimierte Node Pools
Multi-Region: Deployment über mehrere Rechenzentren
Load Balancing: Automatische Verteilung über Modell-Replicas

Installation & Betrieb

Wie schnell kann ich starten?

Lokale Entwicklung: 15-30 Minuten

git clone <repo>
make install-proxy-dev
docker-compose up -d db
poetry run uvicorn litellm.proxy.proxy_server:app

Kubernetes Produktion: 1-2 Stunden (inkl. Cluster-Setup)

helm install kiva-llm-gateway kiva/llm-gateway

Welche Datenbank wird benötigt?

PostgreSQL 15+ (empfohlen):

Managed Services: Azure Database, AWS RDS, CloudSQL
Self-Hosted: CloudNativePG Operator auf Kubernetes
Lokal: Docker PostgreSQL für Entwicklung

Muss ich LiteLLM kennen?

Nein, aber es hilft. KIVA basiert auf LiteLLM, ist aber als eigenständige Plattform dokumentiert. Grundlegende Kubernetes- und Python-Kenntnisse sind hilfreicher.

Wie erfolgen Updates?

GitOps-Ansatz (empfohlen):

# Neue Version in Git committen
git tag v1.1.0
git push origin v1.1.0

# ArgoCD synchronisiert automatisch

Helm direkt:

helm upgrade kiva-llm-gateway kiva/llm-gateway --version 1.1.0

Sicherheit & Compliance

Ist KIVA DSGVO-konform?

Ja, wenn korrekt konfiguriert:

✅ Datenverarbeitung on-premises oder in EU-Cloud
✅ Vollständiges Audit Logging
✅ Granulare Zugriffskontrolle
✅ Keine Telemetrie an Dritte (standardmäßig deaktiviert)

Wichtig: Externe LLM-APIs (OpenAI, etc.) müssen separat auf DSGVO-Konformität geprüft werden.

Wie werden API-Keys verwaltet?

Service Account Model:

Master Key für Administration
Service-spezifische API-Keys mit Berechtigungen
Automatisches Token-Tracking
Budget Limits (optional)

Key Storage:

PostgreSQL (verschlüsselt)
Kubernetes Secrets
Externe Key Vaults (Azure Key Vault, HashiCorp Vault)

Werden Logs und Chats gespeichert?

Standardmäßig:

✅ API Request Logs (Audit Trail)
✅ Token-Verbrauch und Kosten
❌ Keine Chat-Inhalte (außer in Client-Anwendung)

Konfigurierbar:

Retention Period für Logs
Anonymisierung von IP-Adressen
Separate Logging-Backend (ELK, Loki)

Gibt es Sicherheits-Audits?

Das Projekt ist Open Source und kann auditiert werden. Behörden führen typischerweise eigene Security Assessments durch. Wir begrüßen verantwortungsvolle Offenlegung von Sicherheitslücken.

Performance & Kosten

Wie hoch sind die Betriebskosten?

Beispiel: Kleine Behörde (100 User)

Kubernetes Cluster: ~200€/Monat
PostgreSQL: ~50€/Monat
1x GPU Node (T4): ~300€/Monat
Gesamt: ~550€/Monat (ohne externe LLM-APIs)

Alternative: Cloud-APIs only

Infrastruktur: ~100€/Monat (nur Gateway, keine GPUs)
LLM-APIs: Pay-per-Token (z.B. 10€/100k Tokens bei Azure)

Wie schnell ist die Inferenz?

vLLM (lokale Modelle):

Llama 3.2 1B: ~50-100 tokens/sec (T4 GPU)
Llama 3.2 3B: ~20-40 tokens/sec (T4 GPU)
Llama 3.1 70B: ~10-20 tokens/sec (4x A100)

Cloud-APIs:

Abhängig vom Provider (typisch 20-50 tokens/sec)

Wie viele Requests kann das System verarbeiten?

LLM Gateway:

1 Pod: ~100-200 req/sec (ohne Backend-Limitierung)
3 Pods (HA): ~300-600 req/sec
Auto-Scaling: Unbegrenzt (durch Backend begrenzt)

Inference Backend:

vLLM: Abhängig von Modellgröße und GPU (siehe Latenz)
Cloud-APIs: Rate Limits des Providers

Entwicklung & Contribution

Wie kann ich beitragen?

Siehe Contributing Guide:

Code Contributions via Pull Requests
Dokumentation verbessern
Bug Reports und Feature Requests
Community Support

Welche Programmiersprachen werden verwendet?

Backend: Python (FastAPI, LiteLLM)
Frontend: TypeScript/React (Web Dashboard)
Infrastructure: YAML/Helm (Kubernetes)
Scripts: Bash, Make

Gibt es Schulungen oder Workshops?

Geplant:

Online-Tutorials auf YouTube
Office Hours (monatlich)
Workshops für Behörden

Kontakt für Schulungsanfragen: training@kiva.ki4bw.de

Use Cases

Welche Anwendungsfälle sind möglich?

Horizontal (allgemein):

Chat-Assistenten für Mitarbeiter
Dokumenten-Zusammenfassung
Übersetzungen
E-Mail-Entwürfe

Vertikal (fachspezifisch):

Rechtsdokument-Analyse
Antrags-Vorprüfung
Bürgeranfragen-Klassifizierung
Code-Assistenz für Entwickler

Kann ich RAG (Retrieval Augmented Generation) nutzen?

Ja, über:

ChromaDB: Vector Database für Embeddings
MCP Servers: Model Context Protocol für Datenquellen
RAGFlow: Optionales RAG-Framework (in Planung)

Sind Multi-Agent-Systeme möglich?

Ja, durch:

Kombinierte API-Aufrufe
Tool-Calling / Function-Calling
MCP-Server für Tool-Integration
LangChain/CrewAI-Integration (geplant)

Support & Community

Wo finde ich Hilfe?

Dokumentation: Umfassende Guides und Tutorials
GitHub Discussions: Community-Fragen
GitHub Issues: Bug Reports
Matrix Chat: Echtzeit-Support (geplant)

Gibt es kommerziellen Support?

Geplant für Behörden:

Dedicated Support-Verträge
SLA-basierte Response Times
Implementierungs-Beratung
Custom Feature Development

Kontakt: enterprise@kiva.ki4bw.de

Wie ist die Release-Frequenz?

Patch Releases: Bei Bedarf (Bugfixes)
Minor Releases: Monatlich (neue Features)
Major Releases: Halbjährlich (Breaking Changes)