Häufig gestellte Fragen (FAQ)
Allgemeine Fragen
Was ist KIVA?
KIVA (KI-Verwaltungsassistenz) ist eine Open-Source KI-Plattform für die öffentliche Verwaltung. Sie ermöglicht den souveränen Betrieb von Large Language Models (LLMs) und KI-Diensten auf eigener Infrastruktur.
Für wen ist KIVA gedacht?
- Behörden und Verwaltungen: Souveräne KI-Nutzung ohne Cloud-Abhängigkeit
- Entwickler: Platform für KI-Anwendungsentwicklung
- DevOps-Teams: Kubernetes-native KI-Infrastruktur
- Datenschutzbeauftragte: DSGVO-konforme KI-Lösung
Ist KIVA kostenlos?
Ja, KIVA ist Open Source unter MIT-Lizenz. Die Software selbst ist kostenlos nutzbar. Kosten entstehen durch:
- Infrastruktur (Server, GPUs, Cloud-Ressourcen)
- Optional: Kommerzielle LLM-APIs (OpenAI, Azure, Anthropic)
- Optional: Support und Schulungen
Welche Vorteile bietet KIVA gegenüber kommerziellen Lösungen?
- Datensouveränität: Daten bleiben in eigener Infrastruktur
- Transparenz: Vollständiger Quellcode-Zugriff
- Flexibilität: Anpassbar an spezifische Anforderungen
- Kosteneffizienz: Keine Vendor Lock-ins
- On-Premises: Betrieb in eigenen Rechenzentren möglich
Technische Fragen
Welche Modelle werden unterstützt?
Lokale Open-Source Modelle:
- Llama 3.x (1B - 70B Parameter)
- Qwen 2.5
- Mistral / Mixtral
- Alle vLLM-kompatiblen Modelle
Cloud-Provider:
- OpenAI (GPT-4, GPT-3.5)
- Azure OpenAI
- Anthropic (Claude)
- Google Vertex AI
- AWS Bedrock
Benötige ich GPUs?
Für Entwicklung: Nein, Sie können Cloud-APIs oder CPU-basierte Modelle nutzen
Für Produktion (eigene Modelle): Empfohlen
- Kleine Modelle (1B-3B): 1x NVIDIA T4 oder besser
- Mittlere Modelle (7B-13B): 1x A10 oder A100
- Große Modelle (70B+): Mehrere A100 oder H100 GPUs
Welche Kubernetes-Distributionen werden unterstützt?
Alle CNCF-zertifizierten Kubernetes-Distributionen:
- Azure Kubernetes Service (AKS)
- StackIT Sovereign Kubernetes Engine (SKE)
- Open Telecom Cloud Container Engine (CCE)
- IONOS Managed Kubernetes
- On-Premises: k3s, RKE, OpenShift
Wie skaliert die Plattform?
- Horizontal: Automatisches Pod-Scaling basierend auf CPU/Memory
- Vertikal: GPU-optimierte Node Pools
- Multi-Region: Deployment über mehrere Rechenzentren
- Load Balancing: Automatische Verteilung über Modell-Replicas
Installation & Betrieb
Wie schnell kann ich starten?
Lokale Entwicklung: 15-30 Minuten
git clone <repo>
make install-proxy-dev
docker-compose up -d db
poetry run uvicorn litellm.proxy.proxy_server:app
Kubernetes Produktion: 1-2 Stunden (inkl. Cluster-Setup)
Welche Datenbank wird benötigt?
PostgreSQL 15+ (empfohlen):
- Managed Services: Azure Database, AWS RDS, CloudSQL
- Self-Hosted: CloudNativePG Operator auf Kubernetes
- Lokal: Docker PostgreSQL für Entwicklung
Muss ich LiteLLM kennen?
Nein, aber es hilft. KIVA basiert auf LiteLLM, ist aber als eigenständige Plattform dokumentiert. Grundlegende Kubernetes- und Python-Kenntnisse sind hilfreicher.
Wie erfolgen Updates?
GitOps-Ansatz (empfohlen):
# Neue Version in Git committen
git tag v1.1.0
git push origin v1.1.0
# ArgoCD synchronisiert automatisch
Helm direkt:
Sicherheit & Compliance
Ist KIVA DSGVO-konform?
Ja, wenn korrekt konfiguriert:
- ✅ Datenverarbeitung on-premises oder in EU-Cloud
- ✅ Vollständiges Audit Logging
- ✅ Granulare Zugriffskontrolle
- ✅ Keine Telemetrie an Dritte (standardmäßig deaktiviert)
Wichtig: Externe LLM-APIs (OpenAI, etc.) müssen separat auf DSGVO-Konformität geprüft werden.
Wie werden API-Keys verwaltet?
Service Account Model:
- Master Key für Administration
- Service-spezifische API-Keys mit Berechtigungen
- Automatisches Token-Tracking
- Budget Limits (optional)
Key Storage:
- PostgreSQL (verschlüsselt)
- Kubernetes Secrets
- Externe Key Vaults (Azure Key Vault, HashiCorp Vault)
Werden Logs und Chats gespeichert?
Standardmäßig:
- ✅ API Request Logs (Audit Trail)
- ✅ Token-Verbrauch und Kosten
- ❌ Keine Chat-Inhalte (außer in Client-Anwendung)
Konfigurierbar:
- Retention Period für Logs
- Anonymisierung von IP-Adressen
- Separate Logging-Backend (ELK, Loki)
Gibt es Sicherheits-Audits?
Das Projekt ist Open Source und kann auditiert werden. Behörden führen typischerweise eigene Security Assessments durch. Wir begrüßen verantwortungsvolle Offenlegung von Sicherheitslücken.
Performance & Kosten
Wie hoch sind die Betriebskosten?
Beispiel: Kleine Behörde (100 User)
- Kubernetes Cluster: ~200€/Monat
- PostgreSQL: ~50€/Monat
- 1x GPU Node (T4): ~300€/Monat
- Gesamt: ~550€/Monat (ohne externe LLM-APIs)
Alternative: Cloud-APIs only
- Infrastruktur: ~100€/Monat (nur Gateway, keine GPUs)
- LLM-APIs: Pay-per-Token (z.B. 10€/100k Tokens bei Azure)
Wie schnell ist die Inferenz?
vLLM (lokale Modelle):
- Llama 3.2 1B: ~50-100 tokens/sec (T4 GPU)
- Llama 3.2 3B: ~20-40 tokens/sec (T4 GPU)
- Llama 3.1 70B: ~10-20 tokens/sec (4x A100)
Cloud-APIs:
- Abhängig vom Provider (typisch 20-50 tokens/sec)
Wie viele Requests kann das System verarbeiten?
LLM Gateway:
- 1 Pod: ~100-200 req/sec (ohne Backend-Limitierung)
- 3 Pods (HA): ~300-600 req/sec
- Auto-Scaling: Unbegrenzt (durch Backend begrenzt)
Inference Backend:
- vLLM: Abhängig von Modellgröße und GPU (siehe Latenz)
- Cloud-APIs: Rate Limits des Providers
Entwicklung & Contribution
Wie kann ich beitragen?
Siehe Contributing Guide:
- Code Contributions via Pull Requests
- Dokumentation verbessern
- Bug Reports und Feature Requests
- Community Support
Welche Programmiersprachen werden verwendet?
- Backend: Python (FastAPI, LiteLLM)
- Frontend: TypeScript/React (Web Dashboard)
- Infrastructure: YAML/Helm (Kubernetes)
- Scripts: Bash, Make
Gibt es Schulungen oder Workshops?
Geplant:
- Online-Tutorials auf YouTube
- Office Hours (monatlich)
- Workshops für Behörden
Kontakt für Schulungsanfragen: training@kiva.ki4bw.de
Use Cases
Welche Anwendungsfälle sind möglich?
Horizontal (allgemein):
- Chat-Assistenten für Mitarbeiter
- Dokumenten-Zusammenfassung
- Übersetzungen
- E-Mail-Entwürfe
Vertikal (fachspezifisch):
- Rechtsdokument-Analyse
- Antrags-Vorprüfung
- Bürgeranfragen-Klassifizierung
- Code-Assistenz für Entwickler
Kann ich RAG (Retrieval Augmented Generation) nutzen?
Ja, über:
- ChromaDB: Vector Database für Embeddings
- MCP Servers: Model Context Protocol für Datenquellen
- RAGFlow: Optionales RAG-Framework (in Planung)
Sind Multi-Agent-Systeme möglich?
Ja, durch:
- Kombinierte API-Aufrufe
- Tool-Calling / Function-Calling
- MCP-Server für Tool-Integration
- LangChain/CrewAI-Integration (geplant)
Support & Community
Wo finde ich Hilfe?
- Dokumentation: Umfassende Guides und Tutorials
- GitHub Discussions: Community-Fragen
- GitHub Issues: Bug Reports
- Matrix Chat: Echtzeit-Support (geplant)
Gibt es kommerziellen Support?
Geplant für Behörden:
- Dedicated Support-Verträge
- SLA-basierte Response Times
- Implementierungs-Beratung
- Custom Feature Development
Kontakt: enterprise@kiva.ki4bw.de
Wie ist die Release-Frequenz?
- Patch Releases: Bei Bedarf (Bugfixes)
- Minor Releases: Monatlich (neue Features)
- Major Releases: Halbjährlich (Breaking Changes)