Exposee

Analog zur Architektur von Gebäuden stellen wir den Bauplan einer KI-Plattform für die Öffentliche Verwaltung vor. Das Exposee skizziert das Warum (Motivation), das Was (Kernfunktionen) und das Wie (technische Umsetzung) in Form einer Referenzarchitektur sowie einer prototypischen Referenzimplementierung.

Warum: Strategische Notwendigkeit

Die KI-Plattform stellt den strategischen Schritt von einem isolierten Chatbot hin zu integrierten KI-Ökosystem dar. Statt ausschließlich ein großes Sprachmodell hinter einer Benutzeroberfläche bereitzustellen, werden intelligente IT-Systeme realisiert, die verschiedene KI-Dienste und -Modelle miteinander verbinden und so leistungsfähigere Gesamtlösungen erzielen. Wir beobachten diese Entwicklung bei den großen KI-Betreibern und sind überzeugt, dass die öffentliche Verwaltung nicht nur von einer solchen KI-Plattform profitieren kann. Vielmehr sollte diese Plattform in Zusammenarbeit aufgebaut werden, um unabhängig von den großen Betreibern agieren zu können und damit die Souveränität der Verwaltung zu wahren.

Horizontale und vertikale KI-Anwendungsfälle bieten enormes Potenzial, die Effizienz in der öffentlichen Verwaltung deutlich zu steigern. Mithilfe dieser Technologien wird das ohnehin knappe Fachpersonal entlastet. Während horizontale Anwendungsfälle eine breite Anwenderschaft bei ihrer Arbeit unterstützen, sind vertikale Anwendungsfälle in Fachverfahren integriert und versprechen die höchsten Effizienzgewinne.

Für eine zielgerichtete und kosteneffiziente Implementierung bei gleichzeitiger Wahrung der Souveränität ist eine Plattform notwendig, die

flächendeckend eingesetzt wird,
flexibel erweiterbar ist und
On-Premises betrieben werden kann.

Sie sollte vollständig auf Open-Source- und Standard-Bausteinen aufbauen. Sie sollte zudem gemeinschaftlich erweitert werden können, im Sinne einer Basisplattform mit Plugin- und App-Store- und Serviceregistry-Konzept.

Was: Funktionaler Umfang

Die KI-Plattform soll Grundlage für Anwendungen aller Intelligenz-Stufen sein:

Vorhersagesysteme, Task-orientierte Services und Chatbots,
Assistenten und Co-Piloten sowie
eigenständig agierende Agenten.

Dabei ist es aufgrund der enormen Entwicklungsgeschwindigkeit des KI-Ökosystems wichtig, dass die KI-Plattform als zentrales Open-Source-Projekt gemeinsam von der öffentlichen Verwaltung entwickelt wird. Dafür muss die Plattform offen gegenüber Erweiterung und geschlossen gegenüber Veränderungen sein.

Inference Engines und Modell-Runtimes: Diese hosten Modelle, erweitern sie durch einfache Routinen zur Generierung ganzer Output-Streams und stellen somit die Schnittstelle für die schnelle Textgenerierung (Token-Streaming) bereit.
Kapselung der Modell-Runtimes durch ein LLM-Gateway: Um den Zugriff auf die Modelle so einfach und sicher wie möglich zu gestalten, umgibt unser LLM-Gateway die Modell-Runtimes. Dieses zentrale Zugangstor stellt über eine standardisierte Schnittstelle (API) sicher, dass nur berechtigte Nutzer Zugriff erlangen und stellt ein Verbrauchs-Tracking sowie Logging bereit.
Agenten-Pool: Agenten können auf Basis eines App-Store-Konzeptes eingebracht und genutzt werden. Diese zusätzlichen Anwendungen oder kleineren Programme (Agenten ) können eingesetzt werden, um bestimmte Aufgaben und Abläufe zu unterstützen und zu optimieren.
Task-driven Services: Bereitstellung einer Vielzahl von einfachen oder komplexen Tasks (z. B. Zusammenfassung, Übersetzung, Transkription, .... ) über ein Service-Gateway. Diese Services können von Chatbots, Fachverfahren, Agenten oder anderen Komponenten der Plattform genutzt werden.
Retrieval-Augmented-Generation: Integration eines intelligenten Systems zur Informationsabfrage (RAG-Framework), sodass ihre Anfragen stets auf aktuellen und relevanten Informationen basiert. Dieses sammelt aus verschiedenen Quellen die richtigen Daten, verwaltet diese sicher und sorgt dafür, dass die Antworten stets fundiert und passend sind.
Frontend-Technologien: Flexible Benutzeroberflächen für Chat, Administration und spezialisierte Fachanwendungen.
Prompt-Store: Zentrale Verwaltung und Versionierung von optimierten System-Prompts.
Model-Store: Repository für genehmigte und kompatible KI-Modelle.

Horizontale und vertikale Anwendungsfälle entstehen durch geeignete Kombination der Bestandteile und können basierend auf der Referenzarchitektur beschrieben und implementiert werden. Blaupausen und Referenzimplementierungen werden in der Community geteilt.

Wie: Architektur & Umsetzung

Die Referenzarchitektur beinhaltet Design-Vorschläge für die einzelnen Komponenten und wurde bereits prototypisch implementiert.

Architektur-Prinzipien

Die KI-Plattform KIVA folgt bewährten Architektur-Prinzipien:

Cloud-native Deployment: Alle Komponenten laufen containerisiert auf Kubernetes
Service-orientierte Architektur: Lose gekoppelte, austauschbare Microservices
Föderiertes Datenmanagement: Verteilte Datenhaltung über spezialisierte Datenbanken
Zweistufige Authentifizierung: Service Account-basierte Primär-Authentifizierung mit optionaler organisatorischer Zuordnung
Offene Standards: OpenAI API, Model Context Protocol, OpenID Connect, OpenTelemetry

Technische Umsetzung

Kern-Komponenten der Referenzimplementierung:

LLM-Gateway: LiteLLM für einheitlichen Modellzugriff mit Rate-Limiting und Token-Tracking
Inference Engine: vLLM und ollama für hochperformante Modell-Inference
Vektordatenbank: ChromaDB für semantische Suche in RAG-Systemen
Frontend: OpenWebUI als Chat-Interface für Endbenutzer
Observability: Prometheus/OpenTelemetry für umfassendes Monitoring, Kibana Monitoring Dashboard
Datenbank: PostgreSQL für strukturierte Daten und Service Account-Verwaltung
Umgebung: Kubernetes als Laufzeitumgebung

Service-Typen

Die Plattform unterstützt vier zentrale Service-Arten:

Tasks: Modell-getriebene Services für spezifische Aufgaben (Übersetzung, Zusammenfassung)
Tools: Umgebungsinteraktion ohne Modellzugriff (Websuche, Code-Ausführung)
RAG-Services: Kontextuelle Anreicherung durch externe Wissensquellen
Agenten: Autonome Services mit Planungsfähigkeiten und Tool-Nutzung

Sicherheit und Governance

Integrierte Sicherheitsmechanismen:

Input/Output-Guardrails gegen Jailbreaking und toxische Inhalte
DSGVO-konforme Datenverarbeitung
Mandantenfähige Trennung von Organisationseinheiten
Umfassendes Audit-Logging aller KI-Interaktionen

Community und Erweiterbarkeit

Die Plattform ist als Community-Projekt konzipiert und folgt dem EfA-Prinzip ("Einer-für-Alle"):

Offene Architektur und Standards:

Open-Source-Bereitstellung mit vollständiger Transparenz
Plugin-Architektur für neue Services und Use Cases
Standardisierte Schnittstellen (MCP, OpenAI API, OIDC, OpenTelemetry) für maximale Interoperabilität
Infrastruktur-agnostisches Deployment (On-Premises oder deutsche Cloud-Anbieter)

Gemeinschaftliche Weiterentwicklung:

Use Case Shop: Zentraler Austausch und Veröffentlichung erfolgreich implementierter Lösungen
Shared Repository: Gemeinsame Blaupausen und Referenzimplementierungen für Architekturen und Use Cases
Contribution Workflow: Strukturierter Prozess, damit Weiterentwicklungen der Nachnutzer in die gemeinsame Open-Source-Basis einfließen
Horizontale und vertikale Anwendungsfälle: Flexible Kombination modularer Bestandteile für breite Nutzergruppen oder spezialisierte Fachverfahren

Betriebsmodelle: Die Plattform unterstützt verschiedene Betriebsmodelle (zentral, dezentral oder hybrid), um unterschiedliche Anforderungen der öffentlichen Verwaltung zu erfüllen.

Strukturiertes Onboarding: Von der Erstberatung über Integration und Tests bis hin zum produktiven Rollout – der Onboarding-Prozess ist klar definiert und standardisiert.

Weitere Details zu technischen Voraussetzungen, Betriebsmodellen, Governance und dem Onboarding-Prozess finden Sie im Nachnutzungskonzept.