Data Science Projekt Workflow

Vom Sensor in die Cloud, vom Datensatz zum Smart Service. Der CfADS Data-Science Workflow wird ganzheitlich mit dem DA-Cluster abgedeckt. Die Hardware-Infrastruktur gewährleistet, dass die Entwicklung von ML-Lösungen bzgl. Datenverarbeitung sowie Komplexität von Modell-Architekturen entsprechend skalierbar ist.


Enctypted Data Transfer

Verschiedene Protokolle können eingesetzt werden, um Datenpunkte von smarten IoT-Geräten und/oder Datenbanksystemen in den DA-Cluster zu übertragen. Die Übertragung der Daten im Rahmen von M2M-Kommunikation erfolgt stets verschlüsselt. Folgende Protokolle können bei der Entwicklung von Data-Transfer-Pipelines eingesetzt werden:

  • OPC-UA
  • MQTT
  • REST


Data Storage & Backup System

Über entsprechende Datenbanken und das verteilte Dateisystem werden die Daten in der Cloud abgelegt. Hadoop bietet hier die optimale Voraussetzung, um mit großen Datenmengen zu hantieren und intensive Rechenprozesse parallel auszuführen. Ein performanter Zugriff auf die gespeicherten Daten ist dabei stets gewährleistet. Je nach Anwendungsszenario und Datenstruktur kann dazu ein NoSQL- und/oder ein SQL-Datenbanksystem eingesetzt werden.


Data Analysis & Feature Engineering

Schritte zur Datenaufbereitung, -vorverarbeitung und -analyse erfolgen über entsprechenden Tools, die anhand spezifizierter Projektanforderungen gewählt werden. Die Ressourcen des DA-Clusters sichern insbesondere bei der Anwendung komplexer Algorithmen (z.B. distributed Map-Reduce) eine effiziente Ausführung. Mit Jupyter Notebooks werden die Ergebnisse des Feature-Engineering in einer web-basierten, interaktiven Umgebung visuell aufbereitet.


Model Development & Training

Mit TensorFlow, Keras und scikit-learn sind verschiedene Plattformen für maschinelles Lernen verfügbar. Das Training von komplexen Modellen und tiefen neuronalen Netzen wird über die Hardware-Infrastruktur des Clusters verteilt, und durch die verfügbaren GPUs entsprechend beschleunigt.


Smart Services

Als Nutzungsschnittstelle und zur Interaktion mit entwickelten ML-Lösungen werden auf virtuellen Maschinen sogenannte Smart Services implementiert. Diese stellen die Schnittstelle nach außen dar und bieten dem Endnutzer die Möglichkeit bequem mit dem System zu interagieren (z.B. über ein Web-Interface). Der Zugriff erfolgt remote und ist in der Regel über separate Logins und/oder VPN abgesichert.


Anwendungsfälle im Kontext von Industrie 4.0

  • Smart-Services
    • Predictive/Prescriptive Maintenance
    • Predictive Scheduling
    • Forecasting
    • Anomalieerkennung
  • Robotics
  • Digital-Twins
  • MES, LVS