arbeiten:visualisation_in_data_engineering_workflows

Visualisation and Interactive Exploration of Data Changes in Data Engineering Workflows

Thema:
Visualisation and Interactive Exploration of Data Changes in Data Engineering Workflows
Art:
BA
BetreuerIn:
Sebastian Strasser / Meike Klettke
BearbeiterIn:
Maximilian Schmerle
ErstgutachterIn:
Johanna Bogon
ZweitgutachterIn:
Meike Klettke
Status:
in Bearbeitung
angelegt:
2023-06-22
Antrittsvortrag:
2023-07-17

Hintergrund

Maschinelles Lernen, Daten- & Geschäftsanalyse, “Data Warehousing” sowie Medizinische Informatik sind nur ein Bruchteil der Forschungs- und Unternehmensfelder, in welchen eine große Menge and Daten benötigt wird. Diese Daten müssen gesammelt, vorverarbeitet und gespeichert werden, um effizient untersucht werden zu können. Mit Hinblick auf die Vorverarbeitungen durchlaufen die Daten oft mehrere verschiedene Schritte, welche in Form von vorgefertigten Skripten nahtlos anwendbar sind. Exemplarisch könnte man hier die Entfernung von Nullstellen oder das Verfahren mit Duplikaten nennen. Durch die Vereinfachung dieser Verfahren über Frameworks wie Pandas, welche beispielsweise das Entfernen von Nullstellen mit einem einzeiligen Befehl ermöglichen. Kann die Vorverarbeitung schnell undurchsichtig werden und auch Einflüsse auf die Daten an sich, sind schwer ersichtlich. Insbesondere bei großen Datenmengen können solche Veränderungen nicht leicht von Anwender*innen erfasst werden und es werden oft fundierte Kenntnisse über die Materie benötigt, um die Informationen einzuordnen. Es werden also Lösungen benötigt, um Datenveränderungen in Vorverarbeitungspipelines transparenter zu machen.

Zielsetzung der Arbeit

Ziel dieser Arbeit wird es somit sein, diese Vorverarbeitungsschritte verständlicher zu machen, was vor allem über eine Visualisierung der Datenänderungen durch die Verfahren passieren soll. Hierfür soll ein Prototyp entwickelt werden, welcher die Charakteristiken eines Datensatzes darstellt und dann diese mit denen eines weiteren Datensatzes vergleicht. Dieser Prozess soll wenn möglich einen gewissen Aspekt an Interaktivität aufweisen und einfache Schlüsse auf die Auswirkungen der Änderungen zwischen den zwei Datensätzen zulassen. Hierdurch soll eine verständlichere und bedachtere Nutzung von Datenvorverarbeitungsprozessen ermöglicht werden, was für die anknüpfenden Analyse- und Weiterverarbeitungsschritte Vorteile durch bessere Daten birgt.

Konkrete Aufgaben

  • Konkretisieren von Datenvorverarbeitungsschritten und den Daten, die durch diese erzeugt werden
  • Finden von Änderungen zwischen den Daten, die visualisiert werden können und Festhalten dieser Informationen
  • Vergleichen verschiedener Visualisierungswerkzeuge- und -methoden, sowie das Treffen einer Auswahl mit Hinblick auf die darzustellenden Daten
  • Erstellen eines Prototyps, welcher die oben beschriebene Charakterisierung von Datensätzen ermöglicht und vor allem deren Veränderung visualisiert
  • Evaluation des Prototyps
  • Dokumentation in einer schriftlichen Ausarbeitung

Erwartete Vorkenntnisse

  • Programmierkenntnisse in Python
  • Verständnis für den grundlegenden Umgang mit Datensätzen und Datenvorverarbeitungs-Pipelines

Weiterführende Quellen

  • Meike Klettke: Between Data Lakes and Research Data Management – Data Engineering Tasks for the Next Decade, Fresh Thinking Talk, BTW 2023
  • S Grafberger, J Stoyanovich, S Schelter: Lightweight inspection of data preprocessing in native machine learning pipelines, Conference on Innovative Data Systems Research (CIDR), 2021
  • Publications of the HILDA (Workshop on Human-In-the-Loop Data Analytics) Workshops 2020 and 2022, 2023: https://hilda.io/2020/ and https://hilda.io/2022/, and (soon available) https://hilda.io/2023/
  • VanderPlas, J., Granger, B., Heer, J., Moritz, D., Wongsuphasawat, K., Satyanarayan, A., … & Sievert, S. (2018). Altair: interactive statistical visualizations for Python. Journal of open source software, 3(32), 1057.
  • Bernard, J., Hutter, M., Reinemuth, H., Pfeifer, H., Bors, C., & Kohlhammer, J. (2019, June). Visual‐Interactive Preprocessing of Multivariate Time Series Data. In Computer Graphics Forum (Vol. 38, No. 3, pp. 401-412).
  • Chen, C., Yuan, J., Lu, Y., Liu, Y., Su, H., Yuan, S., & Liu, S. (2020). Oodanalyzer: Interactive analysis of out-of-distribution samples. IEEE transactions on visualization and computer graphics, 27(7), 3335-3349.