FH Bielefeld
University of
Applied Sciences

Zeitreihenanalyse von Sensor- und Vitaldaten zur Überwachung und Prävention diabetischer Folgeerkrankungen

Zeitreihenanalyse-gr


Projektübersicht

Anzahl Studierende 1
Art Studienprojekt in Verbindung mit geförderten Projekten mit externen Partnern
Projektverantwortung Prof. Dr.-Ing. Martin Kohlhase, Marvin Schöne, M. Eng.
Projektkontext

Projekte in Zusammenarbeit mit dem Center for Applied Data Science Gütersloh (CfADS) sowie externen Partnern aus einem geförderten Forschungsprojekt.
Eine parallele Anstellung als WHK am CfADS ist möglich

 

Kurzbeschreibung

Ziel des Projekts ist es, mittels Künstlicher Intelligenz (KI) Ausfälle in der Druckproduktion zu verhindern.

Diabetes ist eine weit verbreitete Zivilisationskrankheit, die bei einer unzureichenden Überwachung und Behandlung dramatische Folgeerkrankungen hervorrufen kann. Damit diese Folgeerkrankungen behandelt und im besten Fall durch eine Früherkennung vermieden werden können, ist eine kontinuierliche Erfassung von Sensor- und Vitaldaten der Diabetiker notwendig. Speziell die Früherkennung ist jedoch auf hoch komplexe Wirkzusammenhänge in den Daten zurückzuführen. Hier bieten Methoden des maschinellen Lernens (ML) zur Analyse und Vorhersage von Zeitreihen ein großes Potential. Aus beobachteten Sensor- und Vitaldaten werden eigenständig Wirkzusammenhänge erlernt, die in Form datenbasierter Modelle verdichtet werden. Auf der Grundlage aktueller Sensor- und Vitaldaten können die erlernten Modelle mögliche Folgeerkrankungen vorhersagen, sodass rechtzeitig Präventivmaßnahmen zur Vermeidung einer Folgeerkrankung ergriffen werden können.

Das CfADS forscht gemeinsam mit Partnern aus der Industrie, Wirtschaft und Medizin auf (bspw.) den Gebieten Data Science, ML, KI und cloudbasierter Automatisierung. In den gemeinsamen Projekten wurden bereits erste praktische Anwendungen des ML in Bezug auf Zeitreihen umgesetzt und erprobt. Ausgehend von diesen Vorarbeiten soll zusammen mit den Mitarbeitern der Arbeitsgruppe von Herrn Prof. Kohlhase (CfADS) der Stand der Forschung im Bereich der Zeitreihenanalyse und -vor hersage medizinischer Daten weiter erschlossen und in die Praxis überführt werden. Dabei werden potentiell praxistaugliche ML-Methoden vorausgewählt, die es in einem Benchmarking näher zu untersuchen gilt. Abhängig von den Ergebnissen des Benchmarkings werden die ML-Methoden in einer realen medizinischen Anwendung, die im Rahmen eines geförderten Forschungsprojekts behandelt wird, in die Anwendung überführt.

Aufgabenstellung

In Deutschland leiden knapp 8 Millionen Menschen an Diabetes, was neben hohen finanziellen Kosten zu einer dramatischen Einschränkung der Lebensqualität der Erkrankten führt. Neben einer kontinuierlichen medizinischen Behandlung der Krankheit kann eine unentdeckte oder schlecht überwachte Diabeteserkrankung durch fortschreitende Gefäß- und Nervenschädigungen schwerwiegende gesundheitliche Folgen haben, wie bspw. eine Erblindung, ein Nierenversagen oder eine Amputation der Füße. Damit diese gesundheitlichen Folgen auch in Zeiten der Pandemie zuverlässig vermieden werden können, ist eine fortlaufende Selbstüberwachung notwendig. Weil eine Diabeteserkrankung häufig keine eindeutig wahrnehmbaren Begleitsymptome (wie z. B. Schmerzen) aufweist, ist eine Selbstüberwachung nur durch kontinuierlich erhobene Sensor- und Vitaldaten möglich. Für eine erfolgreiche Selbstüberwachung ist jedoch die Verwendung und Darstellung dieser Daten entscheidend: Während die Selbstüberwachung des Blutzuckerspiegels durch ein einfaches Monitoring realisiert werden kann, ist die Früherkennung diabetischer Folgeerkrankungen auf deutlich komplexere und größtenteils unbekannte Wirkzusammenhänge zurückzuführen. ML-Methoden zur Zeitreihenanalyse und –vorhersage sind in der Lage, die unbekannten Wirkzusammenhänge aus den kontinuierlich erhobenen Daten zu erlernen und in Form datenbasierter Modelle zu verdichten, wodurch diabetische Folgeerkrankungen frühzeitig erkannt und damit einhergehende gravierende Auswirkungen auf die Gesundheit des/der Erkrankten vermieden werden können.

Ziel dieses Forschungsmasterprojekts ist es,

  • den Stand der Forschung im Bereich der Zeitreihenanalyse und -vorhersage zu erschließen,
  • sich in praxisrelevante ML-Methoden für Zeitreihen einzuarbeiten und in einem Benchmarking auf öffentlich zugänglichen Daten zu untersuchen,
  • in Abhängigkeit des Benchmarkings eine oder mehrere aussichtsreiche ML-Methoden in einem Proof of Concept (PoC) auf realen Sensor- und Vitaldaten zu testen,
  • diese ML-Methode(n) durch eine eigenständige Implementierung und Anpassung in einen KI- Workflow zur Überwachung und Prävention diabetischer Folgeerkrankungen zu überführen und an einem realen Use Case zu evaluieren.

Die Bearbeitung des Projekts erfolgt dabei in enger Zusammenarbeit mit der Arbeitsgruppe von Herrn Prof. Kohlhase (CfADS).

 

Bezug zum Thema Data Science  
Durch die Untersuchung unterschiedlicher ML-Methoden für Zeitreihen sowie die eigenständige Implementierung und Anpassung ausgewählter ML-Methoden erlang der/die Studierende ein vertieftes Wissen im ML. Bei der Anwendung der Methode(n) auf einen realen Use-Case werden zudem Erfahrungen in der digitalen Medizin erworben und essentielle Bestandteile eines Data-Science-Workflows kennengelernt. Es werden reale Messdaten erfasst, an die IT-Infrastruktur des CfADS angebunden und mittels Data-Mining-Verfahren verdichtet, sodass datengetriebene Modelle auf der Grundlage der erfassten Messdaten erstellt werden können. Zur Integration und Verarbeitung der Daten wird die Cloud-Plattform des CfADS verwendet, welche auf einem Hadoop-Framework basiert und die Handhabung von Big Data ermöglicht. Außerdem werden durch das Benchmarking zusätzliche Fähigkeiten in der Datenstrukturierung sowie in der Validierung und Verifikation datengetriebener Modelle erlangt. Damit können zahlreiche Kompetenzen, die der/die Studierende in den Veranstaltungen des Forschungsmasters erwirbt, in der Praxis angewendet werden. Zudem bedingt der interdisziplinäre Austausch mit anderen Forschungsmastern der Arbeitsgruppe einen zusätzlichen Wissenstransfer im Bereich Data Science.

 

Verfügbare Ressourcen

Für die Bearbeitung des Projekts kann die Infrastruktur des CfADS genutzt werden, die aus folgenden Komponenten besteht:

  • Data-Analytics-Cluster: rechenstarker Computercluster auf Basis des Hadoop-Frameworks,
  • IoT-Factory: Modellfabrik zur Nachbildung realer Produktionsabläufe,
  • Smart Service Lab: Labor zur Entwicklung von Smart Services und Assistenzsystemen auf Basis von Smart Devices.

Die notwendige Datengrundlage wird durch das Forschungsprojekt und die beteiligten Projektpartner sowie durch frei verfügbare Datensätze (Open-Source) zur Verfügung gestellt. Zudem existieren reale Medizindaten in Form von Zeitreihen aus einem laufenden Forschungsprojekt. Schnittstellen und Methoden zur Datenintegration und -vorverarbeitung wurden bzw. werden in den Forschungsprojekten des CfADS entwickelt.

 

Projektplan
Erstes Semester:
 Konkretisierung des Forschungsvorhabens. Dies beinhaltet die Einarbeitung in die CfADS-Infrastruktur und Thematik sowie die Durchführung einer Literaturrecherche. Die Erstellung eines Forschungsexposés am Ende des Semesters ist Prüfungsleistung.

Zweites Semester: 
Auswahl und Vergleich praxisrelevanter ML-Methoden zur Zeitreihenanalyse und – vorhersage. Zur Auswahl praxisrelevanter ML-Methoden wird die im ersten Semester durchgeführte Literaturrecherche ausgeweitet und intensiviert. Die ausgewählten ML-Methoden werden anschließend in einem Benchmarking miteinander verglichen, wobei hierfür frei zugängliche Open-Source-Zeitreihen herangezogen werden. Die Erstellung eines Papers zur Durchführung und zu den Ergebnissen des Benchmarkings ist Prüfungsleistung.

Drittes Semester: Durchführung eines PoC am realen Use-Case. Basierend auf den Ergebnissen des Benchmarkings werden eine oder mehrere ML-Methoden zur Analyse und Vorhersage von Zeitreihen ausgewählt und auf die Sensor- und Vitaldaten des Forschungsprojekts angewendet. Dabei sind geeignete Maßnahmen zur Datenvorverarbeitung und Ergebnisdarstellung zu treffen. Der PoC stellt die Durchführbarkeit der Masterarbeit sicher und wird in Form eines Papers als Prüfungsleistung für das dritte Semester gewertet.

Viertes Semester: Entwicklung, Umsetzung und Evaluation eines KI-Workflows zur Überwachung und Prävention diabetischer Folgeerkrankungen. Die im PoC eingesetzten Methoden und Verfahren werden erweitert und verbessert, wobei der Fokus auf der Zeitreihenvorhersage liegt. Ausgehend von den Ergebnissen des PoC gilt es, eine erfolgsversprechende ML-Methode eigenständig, ohne die Verwendung einer Toolbox zu implementieren und für eine erfolgreiche Überwachung und Vorhersage präventiver Maßnahmen dahingehend zu erweitern und anzupassen. Es sollen qualitative Vorteile gegenüber konkurrierender ML-Methoden herausgearbeitet (z.B. statische Modelle vs. End-To-End-Modelle) und geeignete präventive Maßnahmen aus der Zeitreihenvorhersage abgeleitet werden. Die Masterarbeit inklusive Kolloquium ist Prüfungsleistung.

Der Projektplan kann während des Projektverlaufs gemäß den Interessen der/des Studierenden adaptiert werden.

 

Eignungskriterien
Zwingend:

  • Grundkenntnisse der Informatik
  • Programmierkenntnisse in Python oder Matlab
  • Teamfähigkeit und Interesse an wissenschaftlicher Arbeit
  • Eigenständige Arbeitsweise
Optional:
  • Erfahrungen in Bereichen des ML
  • Erfahrungen in Bereichen der angewandten Mathematik, Statistik (Data-Science) und der Visualisierung von Daten sowie deren Zusammenhänge


Erwerbbare Kompetenzen

  • Praktische Anwendung verschiedener Data-Mining-Verfahren
  • Erfahrungen in ML-Methoden zur Analyse und Vorhersage von Zeitreihen
  • Big-Data Workflows unter Verwendung des Hadoop-Ökosystems
  • Aufbereitung und Darstellung von Analyseergebnissen
  • Wissenschaftliches Arbeiten, Schreiben und Präsentieren
  • Data-Mining- & KI-Erfahrungen in der Medizin(technik)