Extraktion von Excel-Artefakten
Die Extraktion von Daten, Formeln und Logik aus Excel-basierten Fachverfahren ist ein zentraler Schritt im Pre-Processing. Ziel ist es, alle relevanten Informationen aus den Legacy-Anwendungen zu erfassen und für die Analyse sowie die spätere Migration aufzubereiten.
Extrahierte Artefakte
Bei der Analyse von Excel-Dateien werden verschiedene Artefakttypen identifiziert und extrahiert:
| Typ | Beschreibung | Relevanz für Migration |
|---|---|---|
| VBA-Module (.bas) | Standardmodule mit Prozeduren und Funktionen | Transformation in Backend-Logik |
| Klassenmodule (.cls) | Benutzerdefinierte Objekte mit Methoden und Eigenschaften | Überführung in typisierte Datenstrukturen |
| Formulare (.frm) | Benutzerformulare mit Steuerelementen und Ereignishandlern | Basis für Frontend-Komponenten |
| Tabellenstrukturen | Arbeitsblätter mit Daten, Formeln und Formatierungen | Schema-Ableitung und Datenübernahme |
| Zellformeln | Berechnungslogik und Abhängigkeiten zwischen Zellen | Implementierung der Geschäftslogik |
In der nachfolgenden Abbildung sind die extrahierten Artefakte einer Excel-Applikation dargestellt:

Evolutionärer Ansatz
Initiale Lösung: Skriptbasierte Extraktion
In der frühen Projektphase wurde ein Python-basierter Extraktionsansatz mit der Open-Source-Bibliothek oletools entwickelt. Diese Werkzeugsammlung ermöglicht die Analyse von Microsoft-Office-Dateien und die Extraktion eingebetteter VBA-Makros. Der Ansatz war jedoch mit Einschränkungen verbunden:
- Manuelle Nachbearbeitung der extrahierten Artefakte erforderlich
- Keine automatische Interpretation der Geschäftslogik
- Begrenzte Unterstützung für komplexe Formelstrukturen ohne Makros
Aktueller Ansatz: Agent Skills
Die Extraktion erfolgt heute über spezialisierte Agent Skills, die in das Agentic Coding System integriert sind. Diese Skills ermöglichen eine intelligente, kontextsensitive Analyse von Excel-Dateien und bieten folgende Vorteile:
- Automatische Datenanalyse: Direkte Verarbeitung von
.xlsx,.xlsm,.csvund.tsv-Dateien durch den KI-Agenten - Formelinterpretation: Erkennung und Nachvollzug von Berechnungslogik, Abhängigkeiten und Zellreferenzen
- Strukturerhaltung: Präzise Erfassung von Formatierungen, Farbcodierungen und Dokumentationshinweisen
- Integrierte Validierung: Automatische Erkennung von Formelfehlern (
#REF!,#DIV/0!,#VALUE!,#N/A,#NAME?)
Extraktionsprozess
Der Extraktionsprozess gliedert sich in folgende Schritte:
- Dateianalyse: Identifikation der enthaltenen Arbeitsblätter, Datenstrukturen und eingebetteten Objekte
- Datenextraktion: Auslesen von Zellinhalten, Formeln und Metadaten mittels spezialisierter Bibliotheken (z. B. pandas, openpyxl)
- Logik-Extraktion: Erfassung von VBA-Modulen, Klassenstrukturen und Ereignishandlern
- Abhängigkeitsanalyse: Ermittlung von Zellreferenzen, Blattübergreifenden Verknüpfungen und externen Datenquellen
- Dokumentation: Automatische Generierung einer strukturierten Übersicht der extrahierten Artefakte
Genutzte Bibliotheken
Für die Datenanalyse kommen bewährte Python-Bibliotheken zum Einsatz:
- pandas: Leistungsfähige Datenmanipulation, statistische Auswertungen und Bulk-Operationen
- openpyxl: Erhaltung von Formeln, komplexen Formatierungen und Excel-spezifischen Eigenschaften
Die Wahl der Bibliothek richtet sich nach dem Anwendungsfall:
| Anwendungsfall | Empfohlene Bibliothek |
|---|---|
| Datenanalyse und Statistiken | pandas |
| Formelerhaltung und -bearbeitung | openpyxl |
| Komplexe Formatierungen | openpyxl |
| Massenverarbeitung großer Datenmengen | pandas |
Herausforderungen
Bei der Extraktion von Excel-Anwendungen treten typische Herausforderungen auf:
- Implizite Logik: Geschäftsregeln sind oft in komplexen Formelketten versteckt, ohne explizite Dokumentation
- Makro-Abhängigkeiten: VBA-Code kann auf externe Bibliotheken oder COM-Objekte verweisen
- Hybride Strukturen: Kombination aus Formeln und Makros erschwert die vollständige Erfassung der Logik
- Formatierungskonventionen: Farbcodierungen und bedingte Formatierungen tragen semantische Bedeutung
Diese Herausforderungen werden durch die kontextsensitive Arbeitsweise der Agent Skills adressiert, die nicht nur syntaktische, sondern auch semantische Zusammenhänge erfassen können.
Ergebnis der Extraktion
Die extrahierten Informationen fließen in die nachfolgenden Schritte des Pre-Processing ein:
- AI-generated Documentation: Strukturierte Beschreibung der Applikationslogik
- Test Use Cases: Ableitung von Testszenarien aus der identifizierten Geschäftslogik
- GraphRAG-Wissensspeicher: Aufbereitung von Abhängigkeiten und Zusammenhängen für den Migrationsprozess
Anmerkung: Details zu den Datenformaten und der Schema-Transformation finden sich im Abschnitt Datenformate und Datenbankschemas.