Nr. 22 / 5. September 2017

Wissenschaftliches Rechnen erfolgreich reproduzieren


Das MDC Data Centre

Bild: MDC

Um während eines Experiments Datenberge erheben und später interpretieren zu können, ist die Wissenschaft zunehmend von computergestützten Analyseverfahren und Hochleistungsrechnern abhängig. Unterschiede in den Rechenumgebungen verursachen jedoch Probleme, wenn andere Gruppen die Ergebnisse reproduzieren wollen. Ein Team vom Berliner MDC arbeitet an einer Lösung.

Ein Eckpfeiler der Wissenschaft ist, dass Experimente und Ergebnisse reproduzierbar sein müssen. Soweit die Theorie. In der Praxis ist dieses Ziel mitunter schwer zu erreichen. Denn gerade die experimentellen Rahmenbedingungen moderner Hochdurchsatzverfahren sind nicht nur teuer, sondern das Resultat jahrelanger äußerst sorgfältiger Arbeit. Dass komplexe, maßgeschneiderte Computerprogramme oft die Analyse und Interpretation von Daten übernehmen, macht es noch schwerer, die Ergebnisse einer Forschungsgruppe unabhängig nachzuvollziehen. 

Guix – eine freie Software, die Rechenumgebungen exakt und vollständig reproduzieren kann – könnte bei der Lösung dieses Problem helfen, sagt Ludovic Courtès vom Nationalen Forschungsinstitut für Informatik und Automatisierung in Frankreich (Inria). Er arbeitet zusammen mit Ricardo Wurmus vom Berlin Institute for Medical Systems Biology (BIMSB) am Max-Delbrück-Centrum für Molekulare Medizin, sowie Kolleginnen und Kollegen des Utrecht Bioinformatics Center am Universitätsklinikums Utrecht und anderen Institutionen daran, Guix in den Dienst der wissenschaftlichen Reproduzierbarkeit zu stellen.  

Erfassung kompletter Software-Umgebungen 

Die National Science Foundation in den USA und Fachzeitschriften wie Nature legen auf die freie Verfügbarkeit von Quellcode und größtmögliche Reproduzierbarkeit mittlerweile großen Wert. „Doch ob ein Experiment reproduzierbar ist, hängt auch davon ab, ob sich die Softwareumgebung reproduzieren lässt“, sagt Courtès. „Besonders schwierig wird es, wenn Hochleistungsrechner erforderlich sind.“ 

Guix, das Teil des GNU-Projektes ist, löst mehrere Probleme auf einen Schlag. Es macht Nutzer von der Software-Verwaltung durch Administratoren unabhängig, sie können Softwareumgebung ganz an ihre Bedürfnisse anpassen. Das Programm hat auch Vorteile gegenüber beliebten „Containerlösungen“, die vergleichbar sind mit einem neuen Computer, auf dem bereits alles vorinstalliert ist, sagt Courtés. „Das funktioniert nur so lange, bis kleine experimentelle Änderungen vorgenommen werden, um eine neue Hypothese zu testen. Und das geschieht häufig in der Forschung.“ 

Die Guix-Software basiert auf der Idee, Software-Umgebungen eindeutig zu beschreiben, ähnlich einer mathematischen Funktion. So lassen sich alle Beziehungen von Programmen untereinander charakterisieren und diese auf das Bit genau reproduzieren. Auf diese Weise vereinigt Guix zwei Anforderungen an eine wissenschaftliche Software-Umgebung: Reproduzierbarkeit und individuelle Anpassung.  

Guix für Wissenschaftler 

Allerdings wurde Guix ursprünglich nicht für das wissenschaftliche Hochleistungsrechnen (engl. high performance computing, HPC) konzipiert. Daher arbeiten Wissenschaftlerinnen und Wissenschaftler von MDC, Inria und ihren Partnern an Funktionen, die Guix auf Rechen-Clustern lauffähig machen, um auch dort reproduzierbare Arbeitsabläufe zu etablieren. Außerdem passen sie Programme an das Guix-System an und stellen sie als Pakete zur Verfügung. 

„Vor Guix war die Installation von wissenschaftlicher Software zwangsläufig ad-hoc“, sagt Ricardo Wurmus. „Forschungsgruppen haben ihre eigenen Softwarevarianten kompiliert, sie statisch in bestehenden Systemen verlinkt und gehofft, dass sich nichts ändert. Denn die Verwaltung von Softwareumgebungen war praktisch unmöglich. Heute managen wir mit Guix nicht nur eine Umgebung je Forschungsgruppe. Wir verwenden es auf allen Ebenen: Gruppe, Benutzer, Workflow und so weiter.“ 

Das Projekt soll zwei Jahre laufen. In dieser Zeit wollen sie Software-Reproduzierbarkeit an ihren Institutionen erreicht haben. Courtès sagt: „Mit Guix machen wir einen großen Schritt hin zu einem grundlegen wissenschaftlichen Ziel. Davon wollen wir alle überzeugen, die auf Hochleistungs-Rechner angewiesen sind.“

 

Kontakte

Dr. Annette Tuffs 

Max-Delbrück-Centrum für Molekulare Medizin in der Helmholtz-Gemeinschaft
Leiterin der Abteilung Kommunikation 

030 9406-2140 

annette.tuffs@mdc-berlin.de

Ricardo Wurmus 

Max-Delbrück-Centrum für Molekulare Medizin
BIMSB - Plattform für wissenschaftliche Bioinformatik und mathematische Modellierung

030 9406-1796

ricardo.wurmus@mdc-berlin.de

 

Weitere Informationen

 

Bilder zum Download