Back1 Back2 Back3 Mantik

Mantik
Entwicklertool für Datenwissenschaftler: Supercomputer nutzen – ganz einfach

ZURÜCK

Entwicklertool für Datenwissenschaftler: Supercomputer nutzen – ganz einfach

„Man braucht Menschen, die den Mut haben, sich in unbekanntes Gebiet zu begeben.“

 

Peter Düben, Leiter der Abteilung für Erdsystemmodellierung, ECMWF

 

-> Ganzes Interview lesen

Projektkennzahlen

2 Mitarbeiter:innen

4 Jahre

Software-entwicklungs-Tool

DevOps, Kontinuierliche Integration/Kontinuierliche Bereitstellung

Python, JavaScript

ML Flow, Kubernetes, Docker, Node-js

Warum wir diesen Fall gerne zeigen

Es fühlt sich gut an, sich das Leben ein wenig zu erleichtern und ein Tool zu entwickeln, mit dem man schneller und effizienter arbeiten kann.

Noch besser fühlt es sich an, wenn man auch anderen das Leben erleichtern kann und die Möglichkeit hat, das eigene Tool zu einem marktfähigen Data-Science-Entwicklungstool auszubauen. Hier konnten wir unsere beiden Kompetenzen – Softwareentwicklung und Data Science – perfekt kombinieren, da die Entwickler und Nutzer von Mantik ohnehin im selben Raum in unserem Unternehmen sitzen!

 

Aufgabe und Lösung

Im Jahr 2016 identifizierten unsere Datenwissenschaftler eine Reihe von Schritten, die in Machine-Learning-Projekten immer wieder vorkamen, die aber niemand gerne ausführen wollte, weil sie repetitiv und zeitaufwändig waren. Große Anbieter wie AWS und Microsoft Azure begannen kurz darauf, die Bedürfnisse von Machine-Learning-Anwendern zu bedienen, aber viele Fragen blieben weiterhin unbeantwortet:

Die Ergebnisse waren nicht ausreichend reproduzierbar, da hierfür eine ganzheitliche Betrachtung der ML-Anwendung erforderlich ist: Ein Modell besteht aus dem Dreiklang von Daten, Code und Hardware. Diese gehören zusammen und bestimmen die Anwendbarkeit von ML-Algorithmen. Die Zusammenarbeit an einem gemeinsamen Modell, insbesondere über verschiedene Umgebungen hinweg, wurde kaum unterstützt. Es gab keine Möglichkeit, Modelle schnell oder sogar automatisch gegeneinander zu testen und zu benchmarken. Die Übertragung von in Python entwickelten Modellen in Sprachen, die in Produktionsumgebungen eine bessere Leistung erbrachten, war kostspielig, und die Bereitstellung trainierter Modelle konnte sehr mühsam sein.

Ambrosys begann mit der Entwicklung eines Tools, das als Rückgrat und täglicher Helfer für Millionen von Datenwissenschaftlern dienen sollte. Im Gegensatz zu den proprietären Tools der US-Software-Giganten ist Mantik Open Source, um die Open-Source-Entwicklungskraft der Data-Science-Community zu aktivieren.

Im Jahr 2020 haben wir Bilanz gezogen. Die Architektur war vorhanden, ebenso wie Schnittstellen zu wichtigen ML-Bibliotheken, und reproduzierbare Trainingsläufe waren möglich. Aber auch der Rest der Welt drehte sich weiter; viele neue Tools kamen auf den Markt. Wir durften nicht in die Falle tappen, zu viele Funktionen in unser Produkt zu packen und dadurch zu langsam zu werden. Wir entwickelten eine Architektur, die es uns ermöglichte, neue Komponenten zu integrieren, anstatt Dinge neu zu erfinden. So kombinierten wir beispielsweise Mantik mit dem voll ausgestatteten ML Flow (ein Rad, das wir nicht neu erfinden mussten) und entwickelten es konsequent in Richtung einer lohnenden Nische: High Performance Computing.

Die Mission von Mantik besteht nun darin, große und größte Rechencluster wie das JSC in Jülich oder das CSCS in Lugano so mühelos wie eine AWS-Cloud bereitzustellen. Derzeit wird Mantik v2.0 im Rahmen von zwei groß angelegten EU-Forschungsprojekten (MAELSTROM und KI:STE) fertiggestellt.

Mehr über Mantik

Über Hochleistungsrechner

High Performance Computing, HPC oder manchmal auch einfach „Supercomputing“ genannt, bietet enorme Möglichkeiten, wenn extrem große Datenmengen in einem überschaubaren Zeitrahmen verarbeitet werden müssen. Typische Anwendungsbereiche sind besonders komplexe Systeme, wie beispielsweise Wetter- und Klimaforschung, Luft- und Raumfahrt oder Finanzmathematik. Maschinelles Lernen und HPC sind ebenfalls ideale Partner, denn da HPC-ML eine junge Disziplin ist und nur wenige praktische Tools zur Verfügung stehen, greifen weit weniger Nutzer auf HP-Ressourcen zu, als eigentlich möglich oder sinnvoll wäre.

Ambrosys ist einer der Pioniere, die HPC für neue Anwendungsbereiche erschließen. Wir sind hervorragend mit dem JSC Jülich und anderen Hochleistungsrechenzentren vernetzt und können sowohl die Entwicklung von HPC-Anwendungen als auch die Buchung und Nutzung externer HPC-Kapazitäten unterstützen.

 

→ Fragen oder Gedanken zu dem Thema? Dr. Markus Abel freut sich auf deine Nachricht.

Zurück