Inhaltsverzeichnis

Visualisation and Interactive Exploration of Data Changes in Data Engineering Workflows

Thema:
Visualisation and Interactive Exploration of Data Changes in Data Engineering Workflows
Art:
BA
BetreuerIn:
Sebastian Strasser / Meike Klettke
BearbeiterIn:
Maximilian Schmerle
ErstgutachterIn:
Johanna Bogon
ZweitgutachterIn:
Meike Klettke
Status:
in Bearbeitung
angelegt:
2023-06-22
Antrittsvortrag:
2023-07-17

Hintergrund

Maschinelles Lernen, Daten- & Geschäftsanalyse, “Data Warehousing” sowie Medizinische Informatik sind nur ein Bruchteil der Forschungs- und Unternehmensfelder, in welchen eine große Menge and Daten benötigt wird. Diese Daten müssen gesammelt, vorverarbeitet und gespeichert werden, um effizient untersucht werden zu können. Mit Hinblick auf die Vorverarbeitungen durchlaufen die Daten oft mehrere verschiedene Schritte, welche in Form von vorgefertigten Skripten nahtlos anwendbar sind. Exemplarisch könnte man hier die Entfernung von Nullstellen oder das Verfahren mit Duplikaten nennen. Durch die Vereinfachung dieser Verfahren über Frameworks wie Pandas, welche beispielsweise das Entfernen von Nullstellen mit einem einzeiligen Befehl ermöglichen. Kann die Vorverarbeitung schnell undurchsichtig werden und auch Einflüsse auf die Daten an sich, sind schwer ersichtlich. Insbesondere bei großen Datenmengen können solche Veränderungen nicht leicht von Anwender*innen erfasst werden und es werden oft fundierte Kenntnisse über die Materie benötigt, um die Informationen einzuordnen. Es werden also Lösungen benötigt, um Datenveränderungen in Vorverarbeitungspipelines transparenter zu machen.

Zielsetzung der Arbeit

Ziel dieser Arbeit wird es somit sein, diese Vorverarbeitungsschritte verständlicher zu machen, was vor allem über eine Visualisierung der Datenänderungen durch die Verfahren passieren soll. Hierfür soll ein Prototyp entwickelt werden, welcher die Charakteristiken eines Datensatzes darstellt und dann diese mit denen eines weiteren Datensatzes vergleicht. Dieser Prozess soll wenn möglich einen gewissen Aspekt an Interaktivität aufweisen und einfache Schlüsse auf die Auswirkungen der Änderungen zwischen den zwei Datensätzen zulassen. Hierdurch soll eine verständlichere und bedachtere Nutzung von Datenvorverarbeitungsprozessen ermöglicht werden, was für die anknüpfenden Analyse- und Weiterverarbeitungsschritte Vorteile durch bessere Daten birgt.

Konkrete Aufgaben

Erwartete Vorkenntnisse

Weiterführende Quellen