FH Bielefeld
University of
Applied Sciences

Anwendung von Natural Language Processing für die intelligente Dokumentenanalyse

Natural Language Processing



Projektübersicht

Anzahl Studierende 1
Art Studienprojekt in Verbindung mit geförderten Projekten mit externen Partnern
Projektverantwortung Prof. Dr.-Ing. Martin Kohlhase, Nico Migenda, M.Eng., Marvin Schöne, M.Eng.
Projektkontext

Projekt in Zusammenarbeit mit dem Center for Applied Data Science Gütersloh (CfADS) sowie den externen Partnern Miele & Cie. KG, GEA Westfalia Separator Group GmbH und SAATEN-UNION BIOTEC GmbH aus einem geförderten Forschungsprojekt. Eine parallele Anstellung als WHK am CfADS ist möglich.

 

Kurzbeschreibung

Unternehmen sind aktuell sehr bestrebt, ihr Datenkapital für zukunftsfähige intelligente Produkte und eine nachhaltige Wertschöpfung nutzbar zu machen. Künstliche Intelligenz (KI) und maschinelles Lernen (ML) als Disziplin der KI stellen für diese Unternehmen die Schlüsseltechnologien dar, um Daten zu analysieren und einen Mehrwert daraus zu erzielen. Mittelständische Unternehmen, insbesondere KMU, haben im Vergleich zu großen Plattform-Unternehmen wesentlich kleinere Datenmengen verfügbar. Diese bestehen bspw. aus Labordaten, Leistungsdaten von Maschinen sowie Personenwissen (Berichten, Erfahrungen von Kunden und Servicetechnikern) und besitzen für die Unternehmen einen hohen Wert, da dort Informationen über ihre Produkte und Prozesse sowie deren Leistungsfähigkeit und Innovationspotenzial enthalten sind. Viele dieser wertvollen Daten liegen oftmals als Textdokumente in Form von Berichten vor und können ohne eine aufwändige Digitalisierung und Weiterverarbeitung nicht für den Einsatz von KI genutzt werden.

Neuartige Methoden aus dem Bereich Natural Language Processing (NLP) ermöglichen es, natürliche Sprache (bspw. in Labor-, Kunden- und Servicetechnikerberichten) automatisiert zu digitalisieren und somit für die weitere Verarbeitung durch KI zugänglich zu machen. NLP ist ein Teilgebiet der Linguistik, der Informatik und der KI, das sich mit der Interaktion zwischen Computern und menschlicher Sprache befasst. Das Ziel ist es, mit intelligenten Algorithmen den Inhalt von Dokumenten zu verstehen, einschließlich der kontextuellen Nuancen der darin enthaltenen Sprache. Hierfür werden i. d. R. tiefe neuronale Netze verwendet, da diese im Vergleich zu anderen Verfahren (bspw. statistische Verfahren) kein Feature Engineering benötigen und direkt als end-to-end Ansatz anwendbar sind.

Ziel dieses Forschungsmater-Projekts ist es, Verfahren des NLP am Beispiel realer Use-Cases zur Produkt- und Verfahrensauslegung (SU BIOTEC), Produkt- und Prozessauslegung (GEA) und Diagnoseunterstützung (Miele) in die Anwendung zu überführen, anwendungsspezifisch anzupassen und anhand der unterschiedlichen Use-Cases zu generalisieren. Die implementierten Verfahren sollen in einen ganzheitlichen Data-Science Workflow (siehe Titelbild) eingebettet werden und durch den nachgeschalteten Einsatz datenbasierter Vorhersagemodelle zur Produkt-/Prozessoptimierung beitragen.

Aufgabenstellung

Der/die Studierende arbeitet sich in das extern geförderte Forschungsprojekt und die verschiedenen Berichtstypen der Unternehmen ein. Im Rahmen der Einarbeitung werden Anforderungen an die MLund NLP-Verfahren erfasst und der Stand der Forschung identifiziert. Der Stand der Forschung wird in Form einer Literaturstudie verdichtet und es werden gemäß den Anforderungen potentiell geeignete Verfahren aus dem Stand der Forschung ausgewählt.

Damit die ausgewählten Verfahren in die Anwendung überführt werden können, müssen verfahrensspezifische Datenvorverarbeitungsschritte identifiziert, implementiert und durchgeführt werden. Für viele NLP-Anwendungen ist die Ermittlung der Ähnlichkeit zwischen zwei Sätzen von zentraler Bedeutung. Um die Ähnlichkeit zwischen zwei Sätzen bzw. Elementen zu berechnen, muss der Text zunächst in einen n-dimensionalen Vektor umgewandelt werden, der den Text repräsentiert. Dieser Vektor kann die Schlüsselwörter und Entitäten des Dokuments oder eine Darstellung der im Text enthaltenen Themen widerspiegeln. Die Ähnlichkeit zwischen den Vektoren und damit den Dokumenten kann dann mit Techniken, wie bspw. der Kosinusähnlichkeit, gemessen werden. Dies ist in diesem Projekt von Relevanz, um die oftmals nicht ganz eindeutigen Begutachtungen der Laboringenieure, Servicetechniker und Kunden zu bewerten.

Nach der Datenvorverarbeitung werden die ausgewählten ML- und NLP-Verfahren zur Verarbeitung der Textdokumente implementiert und exemplarisch anhand einer Teilmenge verfügbarer Berichte (bspw. eine Untermenge an ähnlichen Laborberichten) evaluiert und miteinander verglichen. Basierend auf den Ergebnissen des Vergleichs wird eines der evaluierten Verfahren zur Verarbeitung weiterer unterschiedlicher Berichte angepasst, generalisiert und verifiziert. Das Verfahren wird abschließend in einen ganzheitlichen Data-Science Workflow integriert, der an einem Use-Case der Partner erprobt wird. Neben der Vorverarbeitung und Digitalisierung der Berichte mittels NLP werden weitere im Rahmen des Projekts erfasste Datenquellen mit einbezogen. Die Daten werden vereinheitlicht und zum Training eines Vorhersagemodells genutzt, welches, je nach Use-Case, eine Regressions- oder Klassifikationsaufgabe zu lösen hat.

 

Bezug zum Thema Data Science  
Das Projekt hat in jeder Hinsicht einen sehr engen Bezug zum Thema Data Science: Von der Datensammlung über die Datenintegration und -aufbereitung bis hin zur Datenanalyse mit aktuellen MLund NLP-Verfahren. Im Rahmen der Tätigkeit soll der Studierende in Zusammenarbeit mit den Mitarbeitern des CfADS NLP-Verfahren auswählen, implementieren und anwenden. Basierend auf sowohl Testdaten als auch realen Daten von Unternehmen sollen die Verfahren untersucht, verstanden und bewertet (Verwendung von Ähnlichkeitsmaße, Gütemaße, Relevanz-Ranking, etc.) werden. Die NLP-Verfahren können auf der Cloud-Plattform (Cluster) des Center for Applied Data Science umgesetzt (Programmierung und Softwaretest) und sollen für das beschriebene Vorhaben eingesetzt (Text Mining) werden. Der Cluster hat durch zahlreiche GPUs die notwendige Rechenleistung, sodass ein Training der Modelle schnell erfolgen kann. Folglich können die in den Veranstaltungen zum Forschungsmaster erworbenen Erkenntnisse direkt im Projekt und sehr praxisnah angewendet werden.

 

Verfügbare Ressourcen

  • Der Data-Analytics-Cluster des CfADS steht über die Projektlaufzeit zur Verfügung
  • Daten und Laborberichte von Partnerunternehmen
  • Aktive Betreuung bei der Erarbeitung methodischer und praktischer Lösungen
  • Ansprechpartner des CfADS über die gesamte Projektlaufzeit
  • Aktive Unterstützung beim Schreiben wissenschaftlicher Veröffentlichungen

 

Projektplan
Erstes Semester:
 Konkretisierung des Forschungsvorhabens. Dies beinhaltet die Einarbeitung in die CfADS-Infrastruktur, die verfügbaren Berichte und die Erarbeitung eines Anforderungskatalogs an die ML- und NLP-Verfahren. Außerdem wird eine Literaturrecherche zur Identifikation des Stands der Forschung/Technik durchgeführt. Die Erstellung eines Forschungsexposés am Ende des Semesters ist Prüfungsleistung.

Zweites Semester: Gemäß der Anforderungen werden potentiell geeignete Verfahren ausgewählt und theoretisch aufgearbeitet. Es werden für die Verfahren notwendige Datenvorverarbeitungsschritte identifiziert, implementiert und angewendet. Die Erstellung einer Literaturstudie inklusive einer detaillierten Darstellung der ausgewählten Verfahren und notwendigen Datenvorverarbeitungsschritte ist Prüfungsleistung.

Drittes Semester: Die Ausgewählten ML- und NLP-Verfahren werden implementiert und exemplarisch auf eine Teilmenge verfügbarer Berichte (bspw. eine Untermenge an ähnlichen Laborberichten) angewendet, evaluiert und qualitativ miteinander verglichen. In Abhängigkeit des Vergleichs wird ein Verfahren zur weiteren Anpassung und Integration in den Data-Science Workflow ausgewählt. Die Anwendung sowie die qualitative Gegenüberstellung und Bewertung der Verfahren wird in Form eines Papers verschriftlicht und ist Prüfungsleistung des dritten Semesters.

Viertes Semester: Das im dritten Semester ausgewählte Verfahren wird zur Verarbeitung weiterer Berichte erprobt, angepasst und generalisiert. Zur Verifikation des angepassten und generalisierten Verfahrens werden die unterschiedlichen Berichtsformen der Projektpartner herangezogen. Nach einer erfolgreichen Verifikation (und ggf. weiteren Anpassung) wird das Verfahren in einen ganzheitlichen Data-Science Workflow eingebettet. Dieser Workflow wird auf einen der drei Use-Cases angewendet und hinsichtlich einer Prozess- bzw. Produktoptimierung erprobt. Die Masterarbeit inklusive Kolloquium ist Prüfungsleistung.

 

Eignungskriterien
Zwingend:
  • Grundkenntnisse der Informatik
  • Programmierkenntnisse in Python oder Matlab
  • Teamfähigkeit und Interesse an wissenschaftlicher Arbeit
  • Eigenständige Arbeitsweise
  • Gutes Englisch in Wort & Schrift
  • Gutes logisches und mathematisches Verständnis
Optional:
  • Erfahrungen in Bereichen des ML und NLP
  • Erfahrungen in Bereichen der angewandten Mathematik, Statistik (Data-Science) und der Visualisierung von Daten sowie deren Zusammenhänge


Erwerbbare Kompetenzen

  • Praktische Anwendung verschiedener Data-Mining-Verfahren
  • Erfahrungen in der Anwendung und anwendungsbezogenen Anpassung von relevanten MLund NLP-Verfahren zur Verarbeitung von Textdokumenten
  • Big-Data Workflows unter Verwendung des Hadoop-Ökosystems
  • Aufbereitung und Darstellung von Analyseergebnissen
  • Wissenschaftliches Arbeiten, Schreiben und Präsentieren
  • Praktische Erfahrungen in Bereichen der industriellen Digitalisierung