Zum Inhalt

KI-Verwaltungsassistenz (KIVA) - Fachverfahrensmodernisierung für die Öffentliche Verwaltung

Extraktion von Excel-Artefakten

Die Extraktion von Daten, Formeln und Logik aus Excel-basierten Fachverfahren ist ein zentraler Schritt im Pre-Processing. Ziel ist es, alle relevanten Informationen aus den Legacy-Anwendungen zu erfassen und für die Analyse sowie die spätere Migration aufzubereiten.


Extrahierte Artefakte

Bei der Analyse von Excel-Dateien werden verschiedene Artefakttypen identifiziert und extrahiert:

Typ Beschreibung Relevanz für Migration
VBA-Module (.bas) Standardmodule mit Prozeduren und Funktionen Transformation in Backend-Logik
Klassenmodule (.cls) Benutzerdefinierte Objekte mit Methoden und Eigenschaften Überführung in typisierte Datenstrukturen
Formulare (.frm) Benutzerformulare mit Steuerelementen und Ereignishandlern Basis für Frontend-Komponenten
Tabellenstrukturen Arbeitsblätter mit Daten, Formeln und Formatierungen Schema-Ableitung und Datenübernahme
Zellformeln Berechnungslogik und Abhängigkeiten zwischen Zellen Implementierung der Geschäftslogik

In der nachfolgenden Abbildung sind die extrahierten Artefakte einer Excel-Applikation dargestellt:

Extrahierte Excel-Artefakte


Evolutionärer Ansatz

Initiale Lösung: Skriptbasierte Extraktion

In der frühen Projektphase wurde ein Python-basierter Extraktionsansatz mit der Open-Source-Bibliothek oletools entwickelt. Diese Werkzeugsammlung ermöglicht die Analyse von Microsoft-Office-Dateien und die Extraktion eingebetteter VBA-Makros. Der Ansatz war jedoch mit Einschränkungen verbunden:

  • Manuelle Nachbearbeitung der extrahierten Artefakte erforderlich
  • Keine automatische Interpretation der Geschäftslogik
  • Begrenzte Unterstützung für komplexe Formelstrukturen ohne Makros

Aktueller Ansatz: Agent Skills

Die Extraktion erfolgt heute über spezialisierte Agent Skills, die in das Agentic Coding System integriert sind. Diese Skills ermöglichen eine intelligente, kontextsensitive Analyse von Excel-Dateien und bieten folgende Vorteile:

  • Automatische Datenanalyse: Direkte Verarbeitung von .xlsx, .xlsm, .csv und .tsv-Dateien durch den KI-Agenten
  • Formelinterpretation: Erkennung und Nachvollzug von Berechnungslogik, Abhängigkeiten und Zellreferenzen
  • Strukturerhaltung: Präzise Erfassung von Formatierungen, Farbcodierungen und Dokumentationshinweisen
  • Integrierte Validierung: Automatische Erkennung von Formelfehlern (#REF!, #DIV/0!, #VALUE!, #N/A, #NAME?)

Extraktionsprozess

Der Extraktionsprozess gliedert sich in folgende Schritte:

  1. Dateianalyse: Identifikation der enthaltenen Arbeitsblätter, Datenstrukturen und eingebetteten Objekte
  2. Datenextraktion: Auslesen von Zellinhalten, Formeln und Metadaten mittels spezialisierter Bibliotheken (z. B. pandas, openpyxl)
  3. Logik-Extraktion: Erfassung von VBA-Modulen, Klassenstrukturen und Ereignishandlern
  4. Abhängigkeitsanalyse: Ermittlung von Zellreferenzen, Blattübergreifenden Verknüpfungen und externen Datenquellen
  5. Dokumentation: Automatische Generierung einer strukturierten Übersicht der extrahierten Artefakte

Genutzte Bibliotheken

Für die Datenanalyse kommen bewährte Python-Bibliotheken zum Einsatz:

  • pandas: Leistungsfähige Datenmanipulation, statistische Auswertungen und Bulk-Operationen
  • openpyxl: Erhaltung von Formeln, komplexen Formatierungen und Excel-spezifischen Eigenschaften

Die Wahl der Bibliothek richtet sich nach dem Anwendungsfall:

Anwendungsfall Empfohlene Bibliothek
Datenanalyse und Statistiken pandas
Formelerhaltung und -bearbeitung openpyxl
Komplexe Formatierungen openpyxl
Massenverarbeitung großer Datenmengen pandas

Herausforderungen

Bei der Extraktion von Excel-Anwendungen treten typische Herausforderungen auf:

  • Implizite Logik: Geschäftsregeln sind oft in komplexen Formelketten versteckt, ohne explizite Dokumentation
  • Makro-Abhängigkeiten: VBA-Code kann auf externe Bibliotheken oder COM-Objekte verweisen
  • Hybride Strukturen: Kombination aus Formeln und Makros erschwert die vollständige Erfassung der Logik
  • Formatierungskonventionen: Farbcodierungen und bedingte Formatierungen tragen semantische Bedeutung

Diese Herausforderungen werden durch die kontextsensitive Arbeitsweise der Agent Skills adressiert, die nicht nur syntaktische, sondern auch semantische Zusammenhänge erfassen können.


Ergebnis der Extraktion

Die extrahierten Informationen fließen in die nachfolgenden Schritte des Pre-Processing ein:

  • AI-generated Documentation: Strukturierte Beschreibung der Applikationslogik
  • Test Use Cases: Ableitung von Testszenarien aus der identifizierten Geschäftslogik
  • GraphRAG-Wissensspeicher: Aufbereitung von Abhängigkeiten und Zusammenhängen für den Migrationsprozess

Anmerkung: Details zu den Datenformaten und der Schema-Transformation finden sich im Abschnitt Datenformate und Datenbankschemas.