Im Forschungsalltag entstehen viele, meist heterogene Daten, die oft kollaborativ verarbeitet und analysiert werden. Dabei kommen teils komplexe Workflows und ML-Pipelines zum Einsatz, die aus zahlreichen Transformations- und Analyseschritten bestehen. Diese zwischen den Beteiligten zu koordinieren, den Überblick über genutzte Versionen zu behalten und zugleich alle notwendigen Informationen für spätere Reproduzierbarkeit und Nachnutzbarkeit zu sichern, ist eine Aufgabe, die spezialisierte Tools und standardisierte Abläufe erfordert.
Ein solches Tool ist DataLad – ein freies, verteiltes Open-Source-Datenmanagementsystem auf Basis von Git und git-annex. Mit Datalad lassen sich auch viele, sehr große Dateien versionieren, Daten als Datasets (mit zusätzlicher Struktur über Subdatasets) organisieren, Inhalte on demand auf den Arbeitsrechner herunterladen, Provenienz dokumentieren und kollaboratives Arbeiten ermöglichen – per Kommandozeile oder GUI, plattformübergreifend.
All das ist wichtig, damit Forschungsdaten nachvollziehbar, wiederverwendbar und strukturierbar werden – ohne auf teure, proprietäre Software zugreifen zu müssen. Für Geistes- und Kulturwissenschaften heißt das zum Beispiel: Bildsammlungen, 3D-Modelle sowie Mess- und Metadaten lassen sich sauber versionieren, teilen und langfristig pflegen.
Um DataLad besser kennenzulernen, trafen sich vom 30. Juni bis 2. Juli 2025 FDM-Expert:innen von DKZ.2R, WiNoDa sowie den NFDI-Konsortien NFDI4ING und NFDI4Objects am IT Center der RWTH Aachen, um Datenversionierung mit DataLad praxisnah zu erproben. Ziel war es, Multiplikator:innen zu schulen, die DataLad anschließend in ihre Teams tragen – Vorkenntnisse in Git waren hilfreich, aber keine harte Voraussetzung. Für einen möglichst anwendungsnahen Workshop mit anschließendem Hackathon brachten alle Teilnehmenden vorbereitete Use Cases und eigene Datasets mit.

Geleitet wurde der Workshop von Michael Hanke, Adina Wagner, Stephan Heunis und Michał Szczepanik vom Institut für Neurowissenschaften und Medizin, Gehirn und Verhalten (INM-7) des Forschungszentrums Jülich sowie vom Institut für Systemische Neurowissenschaften der Medizinischen Fakultät der Heinrich-Heine-Universität Düsseldorf.
Das Programm sah für den ersten Tag einen kompakten Einstieg vor: zunächst Git, dann die zentralen Konzepte von DataLad und die Einsatzmöglichkeiten im Forschungsdatenmanagement. Außerdem gab es eine Einführung in Forgejo (-Aneksajo) – eine Art selbst hostbares GitHub, das für die Verwaltung von DataLad-Datasets genutzt werden kann. Darüber hinaus präsentierten die Teilnehmenden ihre Use Cases. Tag 2 startete mit einer praktischen Einführung in die Nutzung von Datalad und einer Vertiefung der bislang gelernten Theorie; der restliche Tag stand im Zeichen des Hackathons – die Teams arbeiteten an ihren eigenen Use Cases. Am letzten Tag stellten die Gruppen ihre Ergebnisse vor und diskutierten Anwendungsszenarien.
Genau so wichtig wie die Technik war der Austausch: viele Gespräche in den Pausen, gemeinsame Problemlösung – und abends saßen wir beim gemeinsamen Essen zusammen. Die Verpflegung vor Ort war hervorragend und wurde vom DKZ.2R gesponsert.
Neben dem eigentlichen Programm war die Führung durch die AiXCAVE des IT Centers – inklusive Ausprobieren – ein besonderes Highlight. Die AiXCAVE ist eine fünfseitige, immersive VR-Umgebung am IT Center. Sie wurde 2012 installiert und wird für Forschung, Visualisierung und interaktive Erkundungen genutzt. Spannend war es beispielsweise zu sehen, wie sich so eine komplexe 3D-Simulation des Aachener Doms gemeinschaftlich und in Originalgröße diskutieren lässt .

Ein wenig Theorie, viel Praxis und Teamarbeit: Der Mix aus Einführung und Hackathon hat gezeigt, wie DataLad dezentrale Zusammenarbeit einfacher und reproduzierbar macht – von der ersten Ordnerstruktur bis zur gemeinsamen Publikation eines Datasets. Wer Daten nicht nur ablegen, sondern nachhaltig managen will, findet hier ein Werkzeug mit umfangreicher Dokumentation und einer aktiven und hilfsbereiten Community .
Datalad: https://www.datalad.org/
AixCAVE: https://www.itc.rwth-aachen.de/cms/it-center/Forschung-Projekte/Forschungsschwerpunkte/Virtuelle-Realitaet/~fgqa/AixCAVE/
Distribits-Konferenz 2025 zum Thema verteilte Datenmanagement-Technologien (https://distribits.live) vom 23. bis 25. Oktober in Düsseldorf.
Diese Veranstaltung wird von den Machern der Projekte git-annex (https://git-annex.branchable.com) und DataLad (https://www.datalad.org) organisiert.
- kostenlose zweitägige Konferenz und ein zusätzlicher Hackathon-Tag
- Forscher, Data Stewards, Datenwissenschaftler, Softwareentwickler/-ingenieure aus akademischen oder unternehmerischen Umfeldern
- Programm unter https://www.distribits.live/events/2025-distribits/schedule
Fabian Riebschläger studierte Archäologie der römischen Provinzen und leitet das Forschungsdatenmanagement am Deutschen Archäologischen Institut (DAI). In dieser Funktion verantwortet er das inhaltliche Projektmanagement von WiNoDa am DAI.