FAST: Find a Suitable Topology for Exascale Applications

Aus der Sicht eines Betreibers eines Rechenzentrums ist es unwirtschaftlich, wenn nicht alle Komponenten eines Rechners durch ein laufendes Programm genutzt werden können und im schlimmsten Fall trotzdem Strom verbrauchen.

In dem vom BMBF gefördertem Projekt FAST soll sowohl die initiale Jobverteilung eines Schedulers (System zur Verteilung der Rechenressourcen) als auch das Rescheduling auf der Basis von Key-Performance-Indikatoren (KPI) verbessert werden.

Dabei wird unter Rescheduling das Finetuning der Schedules (eine Art Zeitablaufplan) durch die Migration von Jobs zwischen benachbarten Cluster-Knoten verstanden.

Das Ziel ist es, mit der Einführung von Schedulingphasen die balancierte Verteilung der Last und die Vermeidung jeglicher Ressourcenengpässe im System zu erreichen.

KPIs hingegen beschreiben allgemein den Status eines Systems oder einer Komponente.

In FAST betrachten wir den Cluster und einzelne Cluster-Knoten und als KPIs deren Ressourcen (wie z.B. CPUs, GPUs, Speicher oder Netzwerk). Die Daten werden beispielsweise von Hardware-Countern bezogen und charakterisieren auf einer generischen Ebene im Verbund mit anderen KPIs den Zustand von Anwendungen oder Anwendungsteilen.

Diese Anwendungsprofile geben z. B. Aufschluss über Performance und Energieverbrauch der Anwendungen und bieten somit eine gute Grundlage für Scheduler-Entscheidungen.

Darüber hinaus ist in FAST nach Möglichkeit jede Anwendung selbst eine Informationsquelle, die anwendungsspezifische KPIs wie die aktuelle Programmphase oder den aktuellen Ressourcenbedarf der Applikation liefert. Dadurch kann ein Anwendungsentwickler dem Scheduler Informationen für seine Entscheidungen zukommen lassen, welche die Systemparameter ergänzen und die Bewertungsgrundlage des Schedulers somit problemspezifisch erweitern. Die Information über die aktuelle Phase hilft dem Scheduler zudem, günstige Zeitpunkte für die Migration von Anwendungen zu bestimmen.

Fraunhofer SCAI ist hier insbesondere mit einer speziellen Version der High Performance Bibliothek LAMA vertreten.

Laufzeit

Januar 2014 - Dezember 2016

gefördert durch das BMBF - Bundesministerium für Bildung und Forschung