Zum Inhalt

KI-Verwaltungsassistenz (KIVA) - Referenzarchitektur & -Implementierung für die Öffentliche Verwaltung

Plattformvergleich

Die Referenzarchitektur orientiert sich am Open-Source-Ansatz. Die nachfolgend aufgeführten kommerziellen Plattformen wurden einbezogen, um ihre Interoperabilität zu prüfen. Perspektivisch wird die Gegenüberstellung um weitere Lösungen – wie etwa Langdock oder aiXplain – erweitert.

Ziel dieser Dokumentation ist der Vergleich zweier führender GenAI-Plattformen – Deepset AI und Aleph Alpha (PhariaAI) – hinsichtlich ihrer Fähigkeit, die detaillierten architektonischen und funktionalen Anforderungen des öffentlichen Verwaltungssektors zu erfüllen.

Die zentrale Forschungsfrage lautet: Inwieweit erfüllen die Plattformen Deepset AI und Aleph Alpha (PhariaAI) die wichtigsten architektonischen, funktionalen und Sicherheitsanforderungen (z. B. Modularität, digitale Souveränität, RAG, Halluzinationsvermeidung), die für die Implementierung horizontaler und vertikaler Anwendungsfälle in der öffentlichen Verwaltung erforderlich sind?

Methodik

Der Vergleich wurde mittels einer analytischen Methode durchgeführt, basierend auf der Bewertung der Konformität beider Plattformen mit einer definierten Anforderungsmatrix für die öffentliche Verwaltung.

Datenquellen und Bewertungsprozess:

Die Vergleichstabelle wurde auf Grundlage der Analyse von öffentlich zugänglicher Dokumentation, Online-Schulungen und Gesprächen mit den Owners der Plattformen erstellt. Die Bewertung umfasste eine breite Palette von Kriterien, von allgemeinen architektonischen Anforderungen (wie Skalierbarkeit, Flexibilität und On-Premises-Betrieb) bis hin zu spezifischen Anwendungsfunktionen (einschließlich intelligenter Dokumentenverarbeitung, virtueller Assistenten, Textgenerierung und -analyse) und den wichtigsten Sicherheitsanforderungen (OWASP).

Plattformen

Der Vergleich berücksichtigt zwei führende GenAI-Plattformen, die umfassende Lösungen für Unternehmen und regulierte Institutionen anbieten:

Deepset AI

Deepset AI ist ein deutsches Unternehmen aus Berlin, das sich auf Enterprise-NLP- und KI-Lösungen spezialisiert hat, die hohe Anforderungen an Genauigkeit, Kontrolle und Datenschutz erfüllen.

  • Kernprodukt: Haystack, ein Open-Source-Framework zur Erstellung von Anwendungen wie semantischer Suche, Retrieval Augmented Generation (RAG) und Frage-Antwort-Systemen.
  • Enterprise-Plattform: Die deepset AI Platform (auch deepset Cloud genannt) ist eine vollständig gemanagte Lösung zur schnellen Entwicklung, Bereitstellung und Überwachung von KI-Anwendungen.
  • Architektur: Die Plattform basiert auf modularen Pipelines, Template-basierten Workflows und unterstützt verschiedene LLM-Modelle.
  • Prioritäten: Deepset legt besonderen Wert auf Transparenz, flexible Deployment-Optionen (z. B. Cloud, VPC oder On-Premise) und die Einhaltung von Compliance- und Sicherheitsstandards.

Aleph Alpha (PhariaAI)

PhariaAI ist eine vollständige Generative-AI-Suite des deutschen Unternehmens Aleph Alpha, deren Ziel es ist, eine souveräne, kontrollierte und regulierungskonforme Plattform für Institutionen und Unternehmen bereitzustellen.

  • Komponenten: Die Suite besteht aus Schlüsselkomponenten wie PhariaAssistant (Endbenutzerportal), PhariaStudio (Tools für KI-Ingenieure), PhariaOS (Infrastrukturmanagement) und PhariaCatch (Daten- und Feedbackschleifen, geplant - derzeit noch nicht verfügbar).
  • Modelle: Es werden eigene, proprietäre Modelle „Pharia-1-LLM“ (z. B. 7B Kontroll-Modelle) verwendet, die für präzise Antworten und zusätzliche Sicherheitsvorkehrungen (control-aligned) optimiert sind.
  • Souveränität: Im Fokus stehen Daten- und System-Souveränität, was durch Auditierbarkeit, Erklärbarkeit (Explainability) sowie die Unterstützung hybrider Bereitstellung (On-Premise und Cloud) umgesetzt wird.

Ergebnisse

Die Analyse der Vergleichsmatrix zeigt, dass sowohl die deepset AI Platform als auch Aleph Alpha (PhariaAI) die meisten Kernanforderungen des öffentlichen Verwaltungssektors erfüllen, insbesondere hinsichtlich der architektonischen Leitlinien und der funktionalen Anforderungen im Bereich der Textverarbeitung (Natural Language Processing – NLP).

Kernarchitektur und Modularität:

Beide Plattformen erfüllen die hohen Anforderungen an Modularität und serviceorientierte Architektur. Sie ermöglichen die Entwicklung horizontaler und vertikaler Anwendungsfälle sowie hohe Skalierbarkeit und Flexibilität durch die Kapselung technischer Implementierungen. Deepset AI erreicht dies durch das zugrundeliegende Open-Source-Framework Haystack und modulare Pipelines, während PhariaAI auf einer Kubernetes-basierten Microservices-Architektur (PhariaKernel, PhariaOS) aufbaut.

Digitale Souveränität und Open Source:

Die Anforderungen an die digitale Souveränität werden von beiden Plattformen durch die Unterstützung des On-Premises-Betriebs erfüllt. Die deepset AI Platform, obwohl ein Cloud-Angebot, ermöglicht die Speicherung sensibler Daten in der privaten VPC des Benutzers. Aleph Alpha (PhariaAI) ist explizit als souveräne Lösung für den On-Premises-Betrieb konzipiert. Hinsichtlich der Forderung, die Plattform selbst als Open Source bereitzustellen, erfüllen beide Lösungen diese Anforderung auf Produktebene nicht vollständig. Allerdings stellt Deepset mit dem Open-Source-Framework Haystack eine referenzierbare, vollständig offene Kernarchitektur bereit, während PhariaAI vor allem proprietäre, aber „source-open“ Modelle (Pharia‑1‑LLM) und ausgewählte Open-Source-Komponenten anbietet.

Kernfunktionen (RAG und Halluzinationsvermeidung):

Beide Plattformen stellen zentrale RAG-Systeme (Retrieval Augmented Generation) bereit, die für die dokumentorientierte Arbeit in der Verwaltung entscheidend sind. Strategien zur Vermeidung von Halluzinationen sind ebenfalls integriert: Deepset AI durch Groundedness Score Monitoring und Quellenreferenzen, und PhariaAI durch sicherheitsoptimierte und "control-aligned" Modelle sowie Evaluierungstools.

Spezialisierte und Multimedia-Funktionen:

Im Bereich der Textgenerierung und -analyse (Zusammenfassen, Übersetzen, Paraphrasieren, Recherche) erzielen beide Plattformen hohe Punktzahlen. Deepset AI orchestriert über Integrationen (z. B. Vertex AI) Funktionen zur Bilderzeugung und -beschreibung und erfüllt damit einen Großteil der bildbezogenen Anforderungen. Bei PhariaAI sind Bildfunktionen in der aktuell dokumentierten Standardfunktionalität nur teilweise abgedeckt; laut Anbieter stehen inzwischen multimodale Modelle zur Verfügung, die Bildverarbeitung grundsätzlich ermöglichen, weitere spezialisierte Funktionen (z. B. Anomalie-Erkennung) befinden sich jedoch noch im Ausbau. Beide Plattformen unterstützen die Spracherkennung (Audio zu Text).

Sicherheitsanforderungen (OWASP):

Die zentralen OWASP-Risiken wie Prompt Injection und die Offenlegung sensibler Informationen werden von beiden Plattformen adressiert. PhariaAI hebt die Datensouveränität hervor, indem keine Prompt-Daten oder PII (Persönlich identifizierbare Informationen) protokolliert werden, während Deepset AI auf RBAC (Role-Based Access Control) und sichere Speicherung von Secrets setzt. Aleph Alpha bietet zudem eine Funktion zur Überwachung des Token-Verbrauchs, die Deepset in seiner Enterprise-Version nicht direkt integriert hat.

Chat-Frontend und Benutzerverwaltung:

Beide bieten benutzerfreundliche Web-Frontends und unterstützen die Persistenz von Chat-Verläufen. Sowohl die deepset AI Platform als auch Aleph Alpha (PhariaAI) ermöglichen die Anbindung externer Identity Provider (z. B. SSO/Keycloak); PhariaAI integriert diese Funktionen als Teil einer durchgängigen Suite (PhariaIAM, Zitadel-Integration), während Deepset auf externe Anbieter wie Auth0 setzt und damit verschiedene IDPs unterstützt. PhariaAI hat zudem einen Vorteil in der Barrierefreiheit, da entsprechende Anforderungen bereits nachweislich erfüllt sind, während für Deepset AI in der Dokumentation derzeit keine explizite Konformität ausgewiesen ist.

Fazit und Ausblick

Schlussfolgerung

Beide untersuchten Plattformen, deepset AI und Aleph Alpha (PhariaAI), sind technisch in der Lage, die Mehrheit der kritischen architektonischen, funktionalen und Sicherheitsanforderungen für die Implementierung horizontaler und vertikaler KI-Anwendungsfälle in der öffentlichen Verwaltung zu erfüllen.

Deepset AI sticht durch seine modulare, modellagnostische Architektur hervor, die auf dem bewährten Open-Source-Framework Haystack basiert. Dies gewährleistet eine hohe Flexibilität beim Austausch von LLMs und Komponenten, was für zukünftige technologische Entwicklungen in der KI von Vorteil ist. Darüber hinaus bietet Deepset AI durch Integrationen Lösungen für spezialisierte Multimedia-Funktionen wie Bilderzeugung.

Aleph Alpha (PhariaAI) bietet eine durchgängig souveräne, regulierungskonforme Suite, die speziell auf die hohen Anforderungen regulierter Institutionen zugeschnitten ist. Die Verwendung eigener, "control-aligned" LLM-Modelle (Pharia-1-LLM) und die starke Betonung von Erklärbarkeit (Explainability) und Auditierbarkeit sind besonders relevant für Bereiche mit strikten Compliance-Anforderungen. PhariaAI bietet zudem Vorteile bei der Integration in bestehende IT-Infrastrukturen durch nativen IDP-Support und eine integrierte Überwachung des Token-Verbrauchs.

Die Entscheidung zwischen den beiden Plattformen hängt letztendlich von der Priorisierung der Verwaltung ab:

  • Wenn die Priorität auf maximaler Offenheit, Modellflexibilität und der Nutzung einer breiten Open-Source-Basis liegt, bietet die deepset AI Platform aufgrund ihres Haystack-Fundaments die flexiblere Basis.
  • Wenn die Priorität auf maximaler Daten- und System-Souveränität, On-Premises-Betrieb und kontrollierter Modellleistung liegt, ist die PhariaAI-Suite die dezidiertere Lösung.

Empfehlungen für weitere Analysen

  • Praktische Penetrationstests für Sicherheitsfunktionen
  • Detaillierte Integration mit bestehenden Verwaltungssystemen
  • Bewertung der Total Cost of Ownership für beide Lösungen
  • Pilotprojekte in spezifischen Verwaltungsbereichen

Vergleichstabelle

Die Tabelle listet einen umfassenden Katalog von Anforderungen für die Entwicklung und den Betrieb einer KI-Plattform für die öffentliche Verwaltung auf. Die Anforderungen sind in verschiedene Kategorien gegliedert, darunter allgemeine Vorgaben, architektonische Leitlinien, funktionale Fähigkeiten, Sicherheitsaspekte und Spezifikationen für die Benutzeroberfläche.

ID Kategorie Anforderung Beschreibung
AA1 Allgemeine Anforderungen Horizontale Use-Cases Die Entwicklung, die Integration und der Betrieb von horizontalen (Gen)AI Use Cases für die öffentliche Verwaltung zu muss möglich sein. Horizontale Use Cases sind solche, die von der Mehrheit der Mitarbeitenden genutzt werden (bspw. allgemeine Verwaltungsaufgaben, wie das Bearbeiten von Bürgeranfragen, oder das Erstellen von Vermerken).
AA2 Allgemeine Anforderungen Vertikale Use-Cases Die Entwicklung, die Integration und der Betrieb von vertikalen (Gen)AI Use Cases für die öffentliche Verwaltung zu muss möglich sein. Vertikale Use Cases hingegen betreffen spezielle fachliche Bereiche, dessen Benutzerkreis eingeschränkt ist.
AA3 Allgemeine Anforderungen Web-Frontend Die bereitgestellten KI-Services müssen für die Mitarbeitenden über ein Web Frontend aufrufbar sein.
AA4 Allgemeine Anforderungen Office-Plugins Die KI-Services müssen zusätzlich auch über Plugins in vorhandenen Office-Anwendungen, inklusive E-Mail-Anwendung verfügbar sein.
AA5 Allgemeine Anforderungen Zugriff über Fachverfahren Ergänzend erfordern insbesondere vertikale Use Cases den Zugriff der erforderlichen KI-Services über das Fachverfahren selbst.
AA6 Allgemeine Anforderungen geringe Inferenzzeiten geringe Inferenzzeiten
AA7 Allgemeine Anforderungen hohe Skalierbarkeit hohe Skalierbarkeit
AA8 Allgemeine Anforderungen Flexibilität Flexibilität
AA9 Allgemeine Anforderungen Lose Kopplung einzelner Komponenten Die Architektur muss erlauben, jede Komponente unabhängig voneinander zu betreiben, was zukünftige technologische Entwicklungen und den Austausch von Modulen durch leistungsfähigere Lösungen erleichtert.
AA10 Allgemeine Anforderungen Open-Source-Technologien (Plattform) Im Sinne der digitalen Souveränität wird ein weiterer Fokus auf die Nutzung von Open-Source-Technologien sowie auf die Plattform selbst als Open-Source gelegt.
AA11 Allgemeine Anforderungen Modularität und Wiederverwendbarkeit Modularität und Wiederverwendbarkeit bilden das Grundprinzip bei der Implementierung horizontaler und vertikaler Use Cases. Die Plattform soll es ermöglichen, dass diese aus bereits bestehenden oder neuen Komponenten zusammengebaut werden können. Ist ein Use Case einmal implementiert, kann er von anderen Benutzern der Plattform über einen "Use Case Shop" im Rahmen von Open Source angepasst und wiederverwendet werden.
LL1 Leitlinien der KI-Architektur Modularisierung und Service-orientierte Ein wesentliches Merkmal der KI-Plattform für die öffentliche Verwaltung ist die Austauschfähigkeit einzelner Komponenten mit dem Ziel, technische Weiterentwicklungen im Bereich der Künstlichen Intelligenz zeitnah und mit vertretbarem Aufwand zu berücksichtigen und integrieren zu können. Die damit einhergehende Modularisierung trägt dazu bei, dass Komponenten autark voneinander entwickelt werden können. Dies setzt verbindliche Vorgaben auf der Ebene der Makro-Architektur voraus.
LL2 Leitlinien der KI-Architektur Erweiterbarkeit Durch standardisierte Schnittstellen, einer konsequenten Microservices-Architektur und verbindlichen Architekturvorgaben soll die Erweiterbarkeit der KI-Plattform nicht nur durch die Implementierung zusätzlicher Use Cases garantiert werden, sondern auch neue, diesen Use Cases zugrunde liegende Funktionen, erfolgen können.
LL3 Leitlinien der KI-Architektur Nutzung von Open Source-Komponenten Die KI-Plattform für die öffentliche Verwaltung setzt vorrangig auf Open Source-Komponenten und profitiert damit von den stetigen Weiterentwicklungen im KI-Umfeld. Gleichzeitig stellt sie sicher, dass Ressourcen für den Aufbau der KI-Plattform effizient eingesetzt werden und redundante Entwicklungen ohne maßgeblichen qualitativen Vorteil vermieden werden.
LL4 Leitlinien der KI-Architektur Bereitstellung als Open Source-Software Nach dem "Einer-für-Alle"-Prinzip (EfA-Prinzip) zielen sowohl die Konzeption der KI-Architektur für die öffentliche Verwaltung als auch die zugehörige Referenzimplementierung darauf ab, eine transparente Diskussionsgrundlage und technische Grundlage für KI-Kernfunktionen allgemein zur Verfügung zu stellen. Erweiterungen und Verbesserungen an der Architektur und Implementierung sollen in die Weiterentwicklung einfließen.
LL5 Leitlinien der KI-Architektur Zentrales RAG-System Aufgrund der starken dokumentorientierten Arbeitsweise in der öffentlichen Verwaltung ist ein grundlegendes Element der KI-Plattform ein zentrales RAG-System. Hierzu sollen vorrangig Open Source-Komponenten zum Einsatz kommen, die einen vertrauenswürdigen Umgang mit Dokumenten der öffentlichen Verwaltung ermöglichen.
LL6 Leitlinien der KI-Architektur Kapselung Zusätzliche Abstraktionsebenen sorgen für eine Kapselung technischer Implementierungen und ermöglichen den parallelen Einsatz unterschiedlicher Lösungen. Dies gewährleistet die technische Unabhängigkeit der KI-Plattform von einzelnen Implementierungen.
LL7 Leitlinien der KI-Architektur Verwendung von Open Source KI-Modellen Ein wesentliches Merkmal der KI-Plattform für die öffentliche Verwaltung ist die Unabhängigkeit von externen Cloud-Angeboten. In diesem Sinne setzt sie auf die Verwendung qualitativ hochwertiger Modelle auf Basis eines Open-Source-Lizenzmodells.
LL8 Leitlinien der KI-Architektur On-Premises-Betrieb Die KI-Plattform der öffentlichen Verwaltung ist darauf ausgerichtet, On-Premises auf eigenen Servern betrieben zu werden. Dies erlaubt die eigenständige Verarbeitung sensibler Daten innerhalb der eigenen Rechenzentrums und wahrt die digitale Souveränität beim Einsatz von KI.
LL9 Leitlinien der KI-Architektur Mandantenfähigkeit Eine Trennung nach unterschiedlichen Organisationen bzw. Organisationseinheiten stellt sicher, dass Zugriffe ausschließlich im vorgegebenen Rahmen erfolgen können.
LL10 Leitlinien der KI-Architektur Nutzerverwaltung, Rollen und Berechtigungen Durch die Berücksichtigung von Rollen und Berechtigungen auf Nutzerebene sind individuelle Funktionen und Anpassungen möglich (Benutzerprofil). Darüber hinaus lässt sich eine Abgrenzung der Zugriffsberechtigungen vornehmen. Bei der Anbindung von Systemen bzw. der Überführung von Daten bleiben an dieser Stelle bereits definierte Berechtigungen erhalten.
LL11 Leitlinien der KI-Architektur Usage Bei der Verwendung von LLM-Aufrufen muss der Token-Verbrauch überwacht werden können, um einen unbeabsichtigt oder beabsichtigt hohen Verbrauch einschränken zu können. Der Token-Verbrauch kann auch als Abrechnungs- bzw. Verrechnungsmodell genutzt werden.
LL12 Leitlinien der KI-Architektur Vermeidung/Reduzierung von Halluzination Zusammengesetzte KI-Anwendung, welche auf LLMs als zentrale Bestandteile setzen unterliegen der Statistik der zugrundeliegenden LLMs. Diese sind "next-word-predictor" und damit ist Halluzination ein wesentliches Merkmal, das man durch geeignete Mechanismen kontrollieren kann. Halluzination tritt auf verschiedene Weisen in Kraft: Der Prompt liegt "out-of-distribution", er beinhaltet im Training nicht gesehene Tokens und das LLM kann auf Basis seines Fakten-basierten Wissen keine sinnvolle (gültige) Prognose für ein nächstes Wort treffen und driftet in eine Pfad-Abhängigkeit ab, die wir dann als Halluzination wahrnehmen. Ziel der Plattform ist es Vermeidungsstrategien gegen Halluzination bereitzustellen.
FA1 Automatisierung und Prozessoptimierung Intelligente Verwaltungs- und Sachbearbeitung Bei der KI-gestützten Bearbeitung von standardisierten und wiederkehrenden Vorgängen wie beispielsweise Antragsverfahren, Genehmigungen und Bescheiden werden automatisch relevante Daten aus eingehenden Formularen und Dokumenten extrahiert und auf Vollständigkeit, Richtigkeit und Konsistenz geprüft. Technologien: Optical Character Recognition (OCR), Natural Language Processing (NLP), Machine Learning (ML)
FA2 Automatisierung und Prozessoptimierung Automatisierte Formularverarbeitung Es erfolgt eine KI-basierte Klassifizierung der eingehenden Formulare und Anträge (z. B. Baugenehmigung, Wohngeldantrag) sowie ein automatisiertes Routing an die zu bearbeitende Stelle bzw. Person. Technologien: Modelle für Named Entity Recognition (NER), ML-basierte Textklassifizierung, Regelbasierte Systeme (in Kombination mit KI)
FA3 Bürgerservice und Gesprächsassistenten Virtuelle Assistenten (Chatbots) Eingehende Fragen von Bürgern in natürlicher Sprache, beispielsweise zu Öffnungszeiten, Anträgen oder notwendigen Dokumenten, werden interpretiert, um darauf passende Antworten aus vorhandenen Wissensdatenbanken zu liefern. Durch den Einsatz von KI werden einfache bzw. repetitive Anfragen identifiziert und gefiltert, so dass vorrangig komplexere Fälle der Sachbearbeitung zugewiesen werden. Technologien: Natural Language Understanding (NLU)
FA4 Bürgerservice und Gesprächsassistenten Intelligente Terminplanung Die KI-gestützte Terminplanung basiert auf der Analyse historischer Daten in Bezug auf Terminarten, Tageszeiten, Wochentage, saisonale Schwankungen, Vorlaufzeiten) mit dem Ziel, den zukünftigen Bedarf an Terminen für verschiedene Dienstleistungen vorherzusagen und somit eine bessere Auslastung von Bürgerbüro-Terminen und eine Vermeidung von Wartezeiten zu erreichen. Technologien: Machine Learning (ML) und Predictive Analytics
FA5 Informations- und Wissensmanagement Intelligente Texterkennung und -analyse Die KI-basierte Klassifikation und Inhaltsanalyse umfangreicher Dokumentensammlungen erfolgt auf Basis definierter Dokumentenbeständen und Wissensbasen, um relevante Informationen zusammenzufassen und für die weitere Verarbeitung zu extrahieren. Technologien: Optical Character Recognition (OCR), Natural Language Processing (NLP), ML-basierte Textklassifizierung
FA6 Informations- und Wissensmanagement Wissensmanagementsysteme mit semantischer Suche Die KI-basierte Suchmaschinen erschließen Inhalte und Verwaltungswissen effizient, sodass diese Inhalte gezielt für weitere Aufgaben verwendet werden oder der Entscheidungsunterstützung dienen. Technologien: Optical Character Recognition (OCR), Natural Language Processing (NLP), Machine Learning (ML)
FA7 Prädiktive Planung und Analysen Vorhersagen des Personal- und Ressourceneinsatzes Die KI-basierte Vorhersage und Optimierung von Personaleinsatz basiert auf Daten, die Aussagen über Anwesenheit-/ Urlaubs- und bereits gebuchte Auslastungszeiten ermöglichen. Eine Vorhersage und Optimierung des Ressourceneinsatzes zieht insbesondere Informationen zu saisonalen Spitzen wie Wahlen, Steuerstichtagen oder Ferienzeiten hinzu. Technologien: Machine Learning (ML), Predictive Analytics
FA8 Prädiktive Planung und Analysen Risikoeinschätzung und Betrugserkennung Die KI-basierte Systeme dienen der frühzeitigen Erkennung von Ausreißern in der Datenbasis (Auffälligkeiten), Risiken oder Manipulationen, etwa bei Steuererklärungen, Förderanträgen oder Sozialleistungen. Technologien: Data- und Predictive Analytics, Machine Learning (ML), Regelbasierte Systeme
FA9 Allgemeine Verwaltungsarbeiten Unterstützung bei Verwaltungsaufgaben Die KI-Services dienen der Unterstützung bei allgemeinen alltäglichen Aufgaben von Verwaltungsmitarbeitenden. Darunter sind u. a. Formulierungshilfen, Zusammenfassungen, Übersetzungen, Texte in leichte Sprache zu übersetzen und Präsentationserstellung zu subsummieren. Der Zugang dieser KI-Services muss direkt über den Arbeitsplatz ermöglicht werden. Das bedeutet ein Zugang über ein persönliches Web-Frontend sowie die Integration der KI-Services in bestehende Office-Anwendungen und E-Mailanwendungen via Plugins muss gegeben sein. Technologien: Optical Character Recognition (OCR), Natural Language Processing (NLP)
FA10 Texterzeugung Texte übersetzen Ermöglicht die präzise automatische Übertragung von Inhalten zwischen verschiedenen Sprachen.
FA11 Texterzeugung Texte zusammenfassen Reduktion von längeren Texten auf ihre wesentlichen Kernaussagen, um die Hauptpunkte und wichtigsten Informationen prägnant darzustellen.
FA12 Texterzeugung Texte umformulieren Bestehende Texte durch Umstrukturierung und Wortwahländerungen neu formulieren, um den Inhalt klarer, ansprechender oder zielgruppenspezifischer zu gestalten, ohne die ursprüngliche Bedeutung zu verlieren.
FA13 Texterzeugung Texte in einfache Sprache umformulieren Erleichtert das Verständnis komplexer Inhalte, indem schwierige Begriffe und Satzstrukturen vereinfacht werden.
FA14 Texterzeugung Texte generieren Texte erstellen, basierend auf vorgegebenen Themen oder Eingaben. Dabei Unterscheidung mit Vorlage (bspw. Vermerk) oder ohne Vorlage (bspw. Freitext).
FA15 Texterzeugung Texte bewerten (Plausibilität, etc.) Analyse und Bewertung von Texten auf Plausibilität, Relevanz und Kohärenz, um die Qualität und Genauigkeit sicherzustellen.
FA16 Texterzeugung Texte befragen Informationen aus umfangreichen Texten extrahieren, indem spezifische Fragen gestellt und relevante Antworten identifiziert werden.
FA17 Texterzeugung Texte erläutern Analysieren und Erklären von Textinhalten, um die Bedeutung und Zusammenhänge klar und verständlich darzustellen.
FA18 Texterzeugung Texte vergleichen Bewertung unterschiedlicher Perspektiven (Texte) zu einem Thema, z. B. Benennung von Vor- und Nachteilen
FA19 Texterzeugung Ratschläge erhalten Perspektiven beleuchten, um fundierte Entscheidungen zu treffen und Probleme effektiver zu lösen.
FA20 Textsuche In Texten suchen Auffinden spezifischer Informationen in großen Textmengen.
FA21 Textsuche Texte recherchieren Suchen, Analysieren und Auswerten von schriftlichen Quellen zur Gewinnung relevanter Informationen und Erkenntnisse.
FA22 Textsuche Texte vergleichen (Ähnlichkeiten) Zueinander ähnliche Texte identifizieren, z. B. mit dem Ziel der Kategorisierung
FA23 Bilderzeugung Bilder erstellen Auf Basis von Texten
FA24 Bilderzeugung Bilder erstellen Auf Basis von Audio
FA25 Bilderzeugung Bilder in Dokumente integrieren Integration in Office-Dokumente wie Schreiben oder auch Foliensätze.
FA26 Bilderkennung Bilder beschreiben Als Text
FA27 Bilderkennung Bilder beschreiben Als Audio
FA28 Bilderkennung Bilder vergleichen Bspw. Vorher / Nachher Vergleich
FA29 Bilderkennung Bilder vergleichen Fehlersuche
FA30 Bilderkennung Bilder vergleichen Erkennung von Anomalien
FA31 Spracherkennung Sprache erkennen Audio oder Texteingabe wird erkannt
FA32 Spracherkennung Sprache als Text Spracheingabe (in Audio) kann als Text wiedergegeben werden
FA33 Spracherkennung Sprache als Audio Spracheingabe (in Text) kann als Audio wiedergegeben werden
FA35 Videoerzeugung Video generieren Generierung von Videomaterial basierend auf Eingaben.
FA36 Videoerkennung Video analysieren Analyse und Interpretation von Videomaterial zur weiteren Verarbeitung oder Erkennung von Anomalien.
FA37 Fachspezifische Funktionen Datenmuster erkennen Identifizieren von Trends und Zusammenhängen in großen Datensätzen zur Unterstützung fundierter Entscheidungen und Vorhersagen.
FA38 Fachspezifische Funktionen Vorhersagemodelle Zukünftige Ereignisse oder Trends in verschiedenen Bereichen präzise vorhersagen und optimieren.
FA39 Personal Assistants Intelligente persönliche Assistenten Unterstützen Benutzer durch automatisierte Prozesse oder Eingaben und Sprachbefehle bei anfallenden Aufgaben.
FA40 Personal Assistants Automatisierte Terminplanung und E-Mail Optimiert Zeitmanagement, indem sie Aufgaben effizient organisiert und zeitnahe, relevante Kommunikation gewährleistet.
FA41 Simulationssysteme Virtuelle Umgebungen für Trainingszwecke Realistische Simulationen, die das Erlernen komplexer Fähigkeiten sicher und effizient ermöglichen.
FA42 Robotik Steuerung und Navigation von Robotern Präzise Bewegungsmeldung, Hindernisvermeidung und autonome Entscheidungen in dynamischen Umgebungen für verschiedene Anwendungen.
FA43 KI-Modelle auf Edge-Geräten (z.B. Smartphones) Offline KI Implementation lokaler Sprachmodelle auf Edge-Geräten, um auch Offline-Anwendung zu ermöglichen (z.B. im Flugzeug).
FA44 Allgemeine Funktionen Generierung stoppen
FA45 Allgemeine Funktionen Text eingeben
FA46 Allgemeine Funktionen Dokumente hochladen
FA47 Allgemeine Funktionen Kontexte bilden
SH1 Sicherheits-Anforderungen: OWASP Prompt Injection Direkte Prompt Injection tritt auf, wenn die Prompt-Eingabe des Benutzers das Verhalten der GenAI Anwendung (oder des dahinterliegenden Modells) auf unbeabsichtigte oder unerwartete Weise direkt verändert. Dabei kann die Eingabe entweder beabsichtigt oder unbeabsichtigt erfolgt sein. Dem gegenüber steht die indirekte Prompt Injection. Diese tritt auf, wenn die Eingabe über externe Quellen (Services, Tools) beeinflusst werden.
SH2 Sicherheits-Anforderungen: OWASP Sensitive Information Disclosure Risiko, dass vertrauliche Informationen (z. B. Nutzerdaten, interne Dokumente, Systemkonfigurationen) unbeabsichtigt preisgegeben werden.
SH3 Sicherheits-Anforderungen: OWASP Supply Chain Gefährdungen durch unsichere Abhängigkeiten in der Lieferkette, etwa durch manipulierte Bibliotheken, Modelle oder externe Dienste.
SH4 Sicherheits-Anforderungen: OWASP Data and Model Poisoning Angriffe, bei denen Trainingsdaten oder Modelle manipuliert werden, um falsche oder schädliche Ergebnisse zu erzeugen.
SH5 Sicherheits-Anforderungen: OWASP Improper Output Handling Fehlende Kontrolle der generierten Ausgaben, was zu Sicherheitsproblemen, falschen Informationen oder Missbrauch führen kann.
SH6 Sicherheits-Anforderungen: OWASP Excessive Agency Übermäßige Handlungsautonomie des Systems, die zu unerwünschten oder unkontrollierten Aktionen führen kann.
SH7 Sicherheits-Anforderungen: OWASP System Prompt Leakage Preisgabe interner System-Prompts oder Konfigurationsdetails, die Angreifern helfen, das Modell zu manipulieren.
SH8 Sicherheits-Anforderungen: OWASP Vector and Embedding Weaknesses Schwachstellen in Vektor- und Embedding-Repräsentationen, die Angriffe wie semantische Manipulation oder Injection ermöglichen.
SH9 Sicherheits-Anforderungen: OWASP Misinformation Risiko, dass das System falsche, irreführende oder manipulative Informationen generiert und verbreitet.
SH10 Sicherheits-Anforderungen: OWASP Unbound Consumption Gefahr unkontrollierten Ressourcenverbrauchs (z. B. Rechenleistung, Speicher), was zu DoS-Angriffen oder Systemausfällen führen kann.
BB1 Chat-Frontend Benutzerfreundlichkeit des Chat-Frontends Das Chat-Frontend ist eine benutzerfreundliche Web-Anwendung die es ermöglicht mit großen Sprachmodellen (LLMs) zu interagieren.
BB2 Chat-Frontend SSL-Fähigkeit
BB3 Chat-Frontend IDP Authentifizierung über einen Identity-Provider (z.B. Keycloak)
BB4 Chat-Frontend The Twelve-Factor App-Prinzipien Die Anwendung sollte The Twelve-Factor App-Prinzipien genügen. Insbesondere die Nebenläufigkeit und die Zustandslosigkeit sind für einen Betrieb der Anwendung in einer cloud-nativen Umgebung essentiell.
BB5 Chat-Frontend Mandantenfähigkeit
BB6 Chat-Frontend Look&Feel Das Look&Feel sollte auf das Look&Feel einer Behörde angepasst werden können
BB7 Chat-Frontend Barrierefreiheit Die Anwendung genügt den wesentlichen Anforderungen an Barrierefreiheit
BB8 Chat-Frontend Persistenz der Chat-Verläufe Die Anwendung ermöglicht Persistenz des Chat-Verlaufs je Benutzer
BB9 Chat-Frontend Pipes & Filter-Muster Über Pipelines, die das Pipes & Filter-Muster implementieren kann der Prompt vor und nach-bearbeitet werden. Zur Vor- und Nachbearbeitung können die Service-Komponenten RAG, Tools, Tasks oder Agents benutzt werden.
BB10 Chat-Frontend Plug-In-Konzept Die Anwendung ermöglicht über ein Plug-In Konzept das Einbinden einer Vielzahl spezifischer Frontends in Abhängigkeit der Benutzer-Präferenzen. Auf diese Weise kann der Nutzer mehrere spezifische (vertikale) Chat-Bot-Lösungen aus einer Benutzeroberfläche ansteuern. Dazu müssen Erweiterungspunkte (extension points) definiert sein und gleichzeitig die Erweiterungsmöglichkeit über Konfiguration (im weitesten Sinne siehe auch Fowler)

Quellen

KIVA Dokumentation

Deepset: Website - Cloud Doku - Haystack Doku

Aleph Alpha: Dokumentation - GitHub - Learning Plattform