Extraktion von Excel-Artefakten

Die Extraktion von Daten, Formeln und Logik aus Excel-basierten Fachverfahren ist ein zentraler Schritt im Pre-Processing. Ziel ist es, alle relevanten Informationen aus den Legacy-Anwendungen zu erfassen und für die Analyse sowie die spätere Migration aufzubereiten.

Extrahierte Artefakte

Bei der Analyse von Excel-Dateien werden verschiedene Artefakttypen identifiziert und extrahiert:

Typ	Beschreibung	Relevanz für Migration
VBA-Module (.bas)	Standardmodule mit Prozeduren und Funktionen	Transformation in Backend-Logik
Klassenmodule (.cls)	Benutzerdefinierte Objekte mit Methoden und Eigenschaften	Überführung in typisierte Datenstrukturen
Formulare (.frm)	Benutzerformulare mit Steuerelementen und Ereignishandlern	Basis für Frontend-Komponenten
Tabellenstrukturen	Arbeitsblätter mit Daten, Formeln und Formatierungen	Schema-Ableitung und Datenübernahme
Zellformeln	Berechnungslogik und Abhängigkeiten zwischen Zellen	Implementierung der Geschäftslogik

In der nachfolgenden Abbildung sind die extrahierten Artefakte einer Excel-Applikation dargestellt:

Extrahierte Excel-Artefakte

Evolutionärer Ansatz

Initiale Lösung: Skriptbasierte Extraktion

In der frühen Projektphase wurde ein Python-basierter Extraktionsansatz mit der Open-Source-Bibliothek oletools entwickelt. Diese Werkzeugsammlung ermöglicht die Analyse von Microsoft-Office-Dateien und die Extraktion eingebetteter VBA-Makros. Der Ansatz war jedoch mit Einschränkungen verbunden:

Manuelle Nachbearbeitung der extrahierten Artefakte erforderlich
Keine automatische Interpretation der Geschäftslogik
Begrenzte Unterstützung für komplexe Formelstrukturen ohne Makros

Aktueller Ansatz: Agent Skills

Die Extraktion erfolgt heute über spezialisierte Agent Skills, die in das Agentic Coding System integriert sind. Diese Skills ermöglichen eine intelligente, kontextsensitive Analyse von Excel-Dateien und bieten folgende Vorteile:

Automatische Datenanalyse: Direkte Verarbeitung von .xlsx, .xlsm, .csv und .tsv-Dateien durch den KI-Agenten
Formelinterpretation: Erkennung und Nachvollzug von Berechnungslogik, Abhängigkeiten und Zellreferenzen
Strukturerhaltung: Präzise Erfassung von Formatierungen, Farbcodierungen und Dokumentationshinweisen
Integrierte Validierung: Automatische Erkennung von Formelfehlern (#REF!, #DIV/0!, #VALUE!, #N/A, #NAME?)

Extraktionsprozess

Der Extraktionsprozess gliedert sich in folgende Schritte:

Dateianalyse: Identifikation der enthaltenen Arbeitsblätter, Datenstrukturen und eingebetteten Objekte
Datenextraktion: Auslesen von Zellinhalten, Formeln und Metadaten mittels spezialisierter Bibliotheken (z. B. pandas, openpyxl)
Logik-Extraktion: Erfassung von VBA-Modulen, Klassenstrukturen und Ereignishandlern
Abhängigkeitsanalyse: Ermittlung von Zellreferenzen, Blattübergreifenden Verknüpfungen und externen Datenquellen
Dokumentation: Automatische Generierung einer strukturierten Übersicht der extrahierten Artefakte

Genutzte Bibliotheken

Für die Datenanalyse kommen bewährte Python-Bibliotheken zum Einsatz:

pandas: Leistungsfähige Datenmanipulation, statistische Auswertungen und Bulk-Operationen
openpyxl: Erhaltung von Formeln, komplexen Formatierungen und Excel-spezifischen Eigenschaften

Die Wahl der Bibliothek richtet sich nach dem Anwendungsfall:

Anwendungsfall	Empfohlene Bibliothek
Datenanalyse und Statistiken	pandas
Formelerhaltung und -bearbeitung	openpyxl
Komplexe Formatierungen	openpyxl
Massenverarbeitung großer Datenmengen	pandas

Herausforderungen

Bei der Extraktion von Excel-Anwendungen treten typische Herausforderungen auf:

Implizite Logik: Geschäftsregeln sind oft in komplexen Formelketten versteckt, ohne explizite Dokumentation
Makro-Abhängigkeiten: VBA-Code kann auf externe Bibliotheken oder COM-Objekte verweisen
Hybride Strukturen: Kombination aus Formeln und Makros erschwert die vollständige Erfassung der Logik
Formatierungskonventionen: Farbcodierungen und bedingte Formatierungen tragen semantische Bedeutung

Diese Herausforderungen werden durch die kontextsensitive Arbeitsweise der Agent Skills adressiert, die nicht nur syntaktische, sondern auch semantische Zusammenhänge erfassen können.

Ergebnis der Extraktion

Die extrahierten Informationen fließen in die nachfolgenden Schritte des Pre-Processing ein:

AI-generated Documentation: Strukturierte Beschreibung der Applikationslogik
Test Use Cases: Ableitung von Testszenarien aus der identifizierten Geschäftslogik
GraphRAG-Wissensspeicher: Aufbereitung von Abhängigkeiten und Zusammenhängen für den Migrationsprozess

Anmerkung: Details zu den Datenformaten und der Schema-Transformation finden sich im Abschnitt Datenformate und Datenbankschemas.