FH Bielefeld
University of
Applied Sciences

Einrichtung einer lokalen Cloud-Plattform für die großskalige Datenanalyse innerhalb des Center for Applied Data Science Gütersloh

Big Data, Cloud Computing, Datenanalyse, Datenaufbereitung, Datenerfassung, Hadoop-Framework, High Performance Computing (HPC), Industrie 4.0, Digitalisierung, maschinelles Lernen, Deep-Learning,  Prozessoptimierung
     
Fachhochschule Bielefeld
Fachbereich Ingenieurwissenschaften und Mathematik  

Logo CfADS Gütersloh


Interaktion 1
33619 Bielefeld

Laufzeit
01.06.2017 – 31.05.2020

Projektförderung
NRW EFRE Wettbewerb Forschungsinfrastrukturen

Logo des Programms EFRE.NRW 2014-2020



Europäische Union Investition in unsere Zukunft Europäischer Fonds für regionale Entwicklung



Logo des Ministeriums für Wirtschaft, Innovation, Digitalisierung und Energie des Landes Nordrhein-Westfalen



Kurzbeschreibung
Das Ziel des beantragten Vorhabens ist der Aufbau einer technischen Forschungsinfrastruktur im Bereich von „Data Science“. Diese soll im Rahmen umsetzungsorientierter FuE-Projekte mit Partnern aus Industrie und Gesellschaft genutzt werden. Zentrales Element dieser Projekte ist die Analyse sehr großer Datenmengen.
Daraus ergibt sich als Bedarf eine lokale Cloud-Plattform in Form eines Data-Analytics-Computerclusters (DA-Cluster), der aus leistungsstarker Hardware aufgebaut ist, was sowohl die Speicherkapazität als auch die Rechenleistung betrifft.
Die Software, die auf dem DA-Cluster installiert wird, soll es dem CfADS  erlauben, zügig und umsetzungsorientiert auch anspruchsvolle Projekte aus dem Bereich der Datenaufbereitung, der Datenintegration, der Datenanalyse und des Data-Minings durchzuführen.
Zu diesem Zweck ist der Einsatz einer Hybrid-Architektur geplant, die die Möglichkeiten des High-Performance-Computings (HPC) und des bewährten Hadoop-Frameworks kombiniert.
Mit den HPC-Möglichkeiten können sehr rechenintensive Aufgaben wie z.B. Deep-Learning umgesetzt werden, während das Hadoop-Framework speziell für den Einsatz auf sehr großen Datenmengen („Big Data“) entwickelt wurde.
Auf dem DA-Cluster kann auf Open-Source-Lösungen zugegriffen werden, ebenso ist aber auch der Einsatz von spezieller Software für das Technologiedatenmanagement vorgesehen, um den aufwendigen Prozess des Zusammenführens von Daten aus unterschiedlichsten Quellen substantiell zu vereinfachen und diese Daten in konsistenter Form darzustellen und einer Analyse zuführen zu können.