Interpretable Machine Learning: Untersuchung und praktische Anwendung von interpretierbaren maschinellen Lernverfahren

Interpretable Machine Learning



Projektübersicht

Startsemester SoSe2022 – WiSe2023/24
Anzahl Studierende 1
Art gefördertes Projekt mit externem Partner
Projektverantwortung Prof. Dr.-Ing. Martin Kohlhase
Stephan Godt, M. Sc.
Projektkontext Projekt in Zusammenarbeit mit den Unternehmen Miele & Cie. KG, GEA Westfalia Separator Group GmbH, SAATEN-UNION BIOTEC GmbH und dem Institut für industrielle Informationstechnik (TH OWL) sowie dem Center for Applied Data Science Gütersloh (CfADS). Eine parallele Anstellung als WHK am CfADS ist möglich.
Projektdurchführung Justus Kösters

 

Kurzbeschreibung

Das maschinelle Lernen (ML) stellt ein Teilgebiet der künstlichen Intelligenz dar und wird zur Erzeugung datengetriebener Modelle eingesetzt. Sobald diese datengetriebenen Modelle personenbezogene oder sicherheitskritische Entscheidungen treffen müssen, bspw. beim autonomen Fahren oder in komplexen Produktionsprozessen, muss deren Verhalten erklärbar sein. Nur so kann ein vertrauenswürdiges und zuverlässiges Modellverhalten sichergestellt und die Gefahr von möglichen Personen- und Sachschäden verringert werden. Eine Grundvoraussetzung für diese Erklärbarkeit ist der Einsatz interpretierbarer ML-Verfahren (Interpretable Machine Learning), die eine transparente Darlegung der erlernten Ursache-Wirkungs-Zusammenhänge des Modells ermöglichen.

Zusammen mit dem Center for Applied Data Science (CfADS) soll der Stand der Forschung im Bereich Interpretable Machine Learning neu erschlossen sowie Verfahren untersucht und in die praktische Anwendung überführt werden. Dabei werden aktuelle, hoch relevante Forschungsfragen zur Interpretierbarkeit datengetriebener Modelle beantwortet. Ab wann ist bspw. ein Modell für deren Nutzer*innen Performance interpretierbar und wie kann Interpretierbarkeit bewertet und quantifiziert werden? Welche etablierten Verfahren bieten in der praktischen Anwendung einen echten Mehrwert und wie kann dieser Mehrwert noch gesteigert werden?

Der Forschungsmaster findet im Rahmen eines geförderten Forschungsprojekts in Zusammenarbeit mit industriellen Partnern statt, was zum einen die Notwendigkeit und das Potential interpretierbarer ML-Verfahren in der Praxis verdeutlicht und zum anderen die Möglichkeit bietet, die Untersuchungen basierend auf realen Datensätzen durchzuführen sowie die erzielten Ergebnisse in die praktische Anwendung bei den Unternehmen zu überführen.

Aufgabenstellung

Der / Die Studierende soll im Rahmen des Forschungsprojekts ML-Verfahren untersuchen, die zum einen von Natur aus interpretierbar sind (Ante-Hoc Methoden) und zum anderen für die nachträgliche Interpretation von z. B. Black-Box-Modellen (Post-Hoc Methoden) eingesetzt werden können. Ausgehend vom Stand der Forschung und den betrachteten Use-Cases in den Unternehmen sollen ausgewählte Ante-Hoc und Post-Hoc Methoden näher untersucht und bewertet werden. Die Methoden werden abschließend in den realen Use-Cases der Unternehmenspartner angewendet. Anhand einer Anwender*innen-Studie sollen dabei der Mehrwert der Verfahren sowie Kriterien zur Bewertung und Quantifizierung von Interpretierbarkeit herausgearbeitet werden.


Problemstellung und Ziele der Teilaufgabe

Sollen datengetriebene Modelle im industriellen Kontext eingesetzt werden, müssen diese zur Ver- meidung wirtschaftlicher Schäden auf Zuverlässigkeit geprüft werden. Ähnliche Anforderungen gelten für Modelle im Bereich der Medizintechnik oder Rechtsprechung. Hier können Fehlentscheidungen bspw. zu falsch positiven Krankheitsbefunden oder einer unrechtsmäßigen Verurteilung und dadurch zu schwerwiegenden Personenschäden führen. Damit die Entscheidungen der Modelle zuverlässig sind, von den Nutzer*innen akzeptiert werden und das Vertrauen in die Modelle gestärkt wird, ist eine plausible bzw. verständliche Erklärung der Entscheidungen sowie eine transparente Darlegung des Modellverhaltens erforderlich.

Die Darlegung von Entscheidungen und Verhaltensweisen erfordern den Einsatz interpretierbarer Modelle bzw. einer nachträglichen Interpretation der Modelle. Viele Normen und Gesetze wurden innerhalb der letzten Jahre dahingehend erweitert oder angepasst, wie z. B. die VDI 3714 Implementierung und Betrieb von Big-Data-Anwendungen in der produzierenden Industrie oder das in der DSGVO festgelegte „Recht auf Erklärbarkeit“.

Ziel dieses Forschungsmasterprojekts ist es,

  • den Stand der Forschung im Bereich der Ante- & Post-Hoc Methoden zu erschließen und sich in praxisrelevante State-of-the-Art (SOTA) Methoden einzuarbeiten,
  • die zwei Ansätze (Ante- & Post-Hoc) in jeweils zwei separaten Testanwendungen unter der Berücksichtigung von Aspekten wie Big Data und dem „Fluch der Dimensionen“ zu untersuchen und miteinander zu vergleichen,
  • eine Auswahl der untersuchten Methoden auf Daten aus der Laborumgebung des CfADS (IoT- Factory) und auf Daten aus den realen Use-Cases der Unternehmenspartner Miele, GEA und SU BIOTEC anzuwenden und die zwei Ansätze (Ante- & Post-Hoc) gegenüberzustellen,
  • Ante- & Post-Hoc Methoden zu neuartigen hybriden Ansätzen zu kombinieren (optional),
  • die implementierten Methoden im Rahmen einer Anwender*innen-Studie bei den Unternehmenspartnern zu evaluieren und Kriterien zur Bewertung und Quantifizierung von Interpretierbarkeit zu identifizieren.

 

Bezug zum Thema Data Science  
In seiner Tätigkeit beschäftigt sich der/die Studierende mit hoch relevanten und aktuellen Data-Science-Fragestellungen, welche im Rahmen eines vom Land NRW geförderten Forschungsprojekts untersucht werden und die zurzeit auf Bundesebene und in den Medien diskutiert werden sowie Schlüsselqualifikationen für den Data Analyst von morgen darstellen. Dabei soll zusammen mit den Mitarbeitern des CfADS und der industriellen Projektpartner eine breite Palette praxisrelevanter Methoden zur Interpretation datengetriebener Modelle untersucht, angewendet und bewertet werden. Der/Die Studierende hat die Möglichkeit, in einem spannenden Forschungsprojekt mit Partnern aus Industrie und Wirtschaft mitzuwirken und dadurch einen praktischen Bezug zum Thema Data Science aufzubauen. Zusätzlich lernt der/die Studierende neuste Data-Science-Technologien in Form der hoch modernen Infrastruktur des CfADS kennen. Die Methoden können auf der Cloud-Plattform des CfADS implementiert und ausgewertet werden. Diese hat durch zahlreiche GPUs die notwendige Rechenleistung, sodass auch anspruchsvolle Rechenoperationen schnell durchgeführt werden können. Zudem ist auf der Cloud-Plattform des CfADS ein Hadoop-Workflow umgesetzt, der die Verarbeitung großer Datenmengen ermöglicht. Folglich können die in den Veranstaltungen zum Forschungsmaster erworbenen Erkenntnisse direkt im Projekt angewendet werden.

 

Verfügbare Ressourcen

Für die Bearbeitung des Projekts kann die Infrastruktur des CfADS genutzt werden, die aus folgenden Komponenten besteht:

  • Data-Analytics-Cluster: rechenstarker Computercluster auf Basis des Hadoop-Frameworks
  • IoT-Factory: Modellfabrik zur Nachbildung realer Produktionsabläufe
  • Smart Service Lab: Labor zur Entwicklung von Smart Services und Assistenzsystemen auf Basis von Smart Devices.

Die notwendige Datengrundlage wird durch Testprozesse, der IoT-Factory oder durch die realen Use- Cases der industriellen Unternehmenspartner Miele, GEA und SU BIOTEC zur Verfügung gestellt.

 

Projektplan
Erstes Semester:
 Konkretisierung des Forschungsvorhabens. Dies beinhaltet die Einarbeitung in die CfADS-Infrastruktur, in die Methoden und Toolboxen. Ebenso wird mit einer Literaturrecherche und der Einarbeitung in die Thematik begonnen. Die Erstellung eines Forschungsexposés am Ende des Semesters ist Prüfungsleistung.

Zweites Semester: Tiefere Einarbeitung in den Stand der Forschung und die Funktionsweise von Ante- Hoc Methoden und Post-Hoc Methoden. Dabei sollen ausgewählte SOTA Methoden in Testanwendungen untersucht und miteinander verglichen werden. Die Erstellung eines Papers zum Stand der Forschung inkl. der Untersuchung der ausgewählten Methoden ist Prüfungsleistung.

Drittes Semester: Erste Anwendung ausgewählter Verfahren und Darstellung der Erklärbarkeit bzw. Interpretierbarkeit. Die Anwendung erfolgt zunächst auf Daten aus der Laborumgebung des CfADS, dann auf Daten aus den realen Use-Cases der Unternehmenspartner. Die Erstellung eines Papers mit ersten quantitativen Ergebnissen ist Prüfungsleistung.

Viertes Semester: Anwendung und Anpassung / Optimierung ausgewählter Verfahren in der Praxis und Durchführung sowie Auswertung einer Anwender*innen-Studie bei den Unternehmenspartnern. Ausgehend von den Ergebnissen der Vorsemester werden ausgewählte ggf. angepasste Methoden in den realen Use-Cases der Partner angewendet. Eine Anwender*innen-Studie dient der Evaluation der Methoden sowie der Identifizierung von Kriterien zur Bewertung und Quantifizierung von Interpretierbarkeit. Die Masterarbeit inklusive Kolloquium ist Prüfungsleistung.

 

Eignungskriterien
Zwingend:
  • Grundkenntnisse der Informatik
  • Teamfähigkeit und Interesse an wissenschaftlicher Arbeit
  • Erfahrungen im Umgang mit Tools zur Auswertung großer Datenmengen, wie z.B. MAT-LAB/Simulink, Python
Optional:
  • Erfahrungen in den Bereichen der Mathematik, Automatisierungstechnik, Statistik (Data-Science) und der Visualisierung von Daten und deren Zusammenhänge


Erwerbbare Kompetenzen

  • Praktischer Einsatz verschiedener Verfahren des maschinellen Lernens
  • Big-Data Workflows unter der Verwendung eines Hadoop-Ökosystems
  • Maschinelle Lernverfahren, speziell im Bereich der Klassifikation und Regression
  • Aufbereitung und Präsentation von Analyseergebnissen