Das Unternehmen Digitalwerk GmbH entwickelt ein Framework das Softwareentwicklern bei der Umsetzung von intelligenten Fahrerassistenzlösungen unterstützt. Die Grundlage dieser Fahrerassistenzlösungen bilden riesige Mengen an Fahrzeugsensordaten. Aufgrund der Größe dieser Datenmengen nimmt deren Auswertung viel Zeit in Anspruch. Mithilfe von Hadoop soll dieser Vorgang optimiert und beschleunigt werden.
Besondere Herausforderungen ergeben sich durch die sequenziellen Eigenschaften der zu analysierenden Daten und die Einbettung der zu entwickelnden Applikation in einen bestehenden Anwendungskontext.
Im Rahmen dieser Arbeit soll eine Applikation entwickelt werden, die durch Hadoop oder alternative Frameworks gegebene Möglichkeiten zur parallelen Verarbeitung großer Datenmengen nutzt, um die langen Analysezeiten von Sensordaten zu verkürzen. Zu Evaluationszwecken soll die Performance der bisherigen Vorgehensweise mit der Performance des entwickelten Prototyps verglichen werden. Hierfür soll der Prototyp auf einem kleinen Cluster lokal und auf einem größeren Cluster in der Cloud getestet werden.
Analyse verfügbarer Technologien und Ansätze o Hadoop MapReduce o Pig o Tez o Hive o Spark o Storm
Konzeption o (Schnittstelle zu bestehendem System) o Data Landing o Datenvorverarbeitung/Integration o Parallelisierung der Datenverarbeitung o (Cloudanbindung)
Umsetzung o Setup pseudo-distributed/fully-distributed/cloudbasiertes Cluster zu Test-, Evaluations-und Entwicklungszwecken o Entwicklung prototypische Applikation zur Analyse kleiner Testdatenmengen o Evaluation der Skalierbarkeit der Applikation o Umsetzung der konzipierten Applikation o Anpassung der Applikation zur Nutzung in der Cloud o (Anbindung der Applikation an Clouddienst (Microsoft Insight))
Evaluation o Performancetests bisherige Vorgehensweise/lokales Hadoop Cluster/Cloud Hadoop Cluster
TBD
TBD