Task Area 1: Datengewinnung

Wir kreieren die Basis für FAIR RDM

Überblick

Die Verwaltung der Datenproduktion wird zu einer immer größeren Herausforderung, insbesondere in der Neutronen- und Röntgenwissenschaftsgemeinschaft, die einen rasanten Anstieg sowohl in der Qualität als auch in der Quantität der Daten verzeichnet. Das Ziel von TA1 ist es, Werkzeuge zu entwickeln und Empfehlungen für bewährte Verfahren bereitzustellen, um vollständige Daten, Metadaten und experimentrelevante Informationen zu erfassen. Dies bildet die Grundlage für FAIR-Daten. Um dies zu erreichen, müssen Experiment-Workflows und Probeninformationen in elektronischen Laborbüchern (ELN) dokumentiert, Roh- und verarbeitete Daten in standardisierten Formaten wie NeXus gespeichert und Verknüpfungen zu Metadatenkatalogen wie SciCat bereitgestellt werden. All diese Maßnahmen ermöglichen eine umfassende Aufzeichnung experimenteller Informationen, eine verbesserte Reproduzierbarkeit und die Einhaltung der FAIR-Prinzipien.

 

Qualitäts-Metadaten sind eine Voraussetzung zur Auffindbarkeit von Daten

Metadaten aus dem Experiment, der Datenspeicherung und der anschließenden Datenverarbeitung stehen im Zentrum der FAIR Science. DAPHNE4NFDI hat Empfehlungen zur Erfassung von Metadaten für die PaN-Community https://doi.org/10.5281/zenodo.12169109 für Experimente an Großforschungsanlagen formuliert. Diese umfassen Überlegungen zu:

  • Administrativen, experimentellen und Proben-Metadaten

  • Der Provenienz von Forschungsdaten

  • Kuration, Archivierung und Lizenzierung für den Zugang

Die vorgestellten Metadatenstandards basieren auf den Ergebnissen von PaNOSC und EXPaNDS https://doi.org/10.5281/zenodo.6821676 und folgen umfangreichen Diskussionen innerhalb von DAPHNE4NFDI und den Use-Case-Communities.

 

Elektronische Laborbücher dokumentieren Experimentabläufe 

Elektronische Laborbücher sind ein Baustein des FAIRen Forschungsdatenmanagements, da sie die Probe, experimentelle Details, den Datenerfassungs- und Analyseprozess dokumentieren. DAPHNE4NFDI hat detaillierte Spezifikationen für die Nutzung von ELNs in der Photonen- und Neutronenforschung erarbeitet und veröffentlicht https://doi.org/10.1080/08940886.2024.2432265, einschließlich

  • Zugriffsmanagement

  • Benutzererfahrung

  • Automatisierte Einbindung
     

Elektronische Laborbücher sind der Schlüssel zum Verständnis von Experimenten

ELNs sind der Einstiegspunkt in ein Experiment für jeden Wissenschaftler, der ein Experiment verstehen und reproduzieren möchte. DAPHNE4NFDI verfolgt das Ziel, ELNs zu entwickeln, die gute wissenschaftliche Praxis fördern und eine FAIR-Forschung ermöglichen, während sie gleichzeitig benutzerfreundlich sind und rechtliche sowie ethische Standards erfüllen. Indem bestehende Ideen und Entwicklungen aufgegriffen werden, bringt DAPHNE4NFDI vielversprechende Lösungen in einen ausgereiften Zustand. Der einsatzweite Betrieb an Forschungseinrichtungen erfordert die Integration der entwickelten Software in die Forschungsdatenmanagement-Infrastruktur.

Derzeit werden im Rahmen von DAPHNE4NFDI die folgenden ELN-Lösungen bearbeitet:

  • MLZ ELN <https://forge.frm2.tum.de/review/plugins/gitiles/mlz/eln/>

  • Snip <https://snip.roentgen.physik.uni-goettingen.de/frontpage>

  • MyLog <>

  • SciLog <https://github.com/paulscherrerinstitute/scilog>

  • Mediawiki <https://www.hzdr.de/db/Cms?pOid=67705&pNid=0> 
     

Metadatenerfassung

Um eine vollständige und umfassende Metadatenerfassung zum Zeitpunkt des Experiments sicherzustellen, entwickelt und fördert DAPHNE4NFDI Werkzeuge zur Erleichterung der Metadatenaggregation. Dies umfasst:

  • Quellen- und Instrumenteneinstellungen,

  • Proben- und Probenumgebungsinformationen,

  • Experiment- und Experimentator-Daten (User Office),

  • Manuelle Eingaben.

Diese Daten werden gemäß dem Metadatenschema in einen Metadatenaggregator eingespeist, der Teilmengen automatisch an verschiedene Nutzer verteilen kann, darunter:

  • einen Metadatakatalog,

  • Analysepipelines,

  • Datei-Schreiber,

  • automatisierte ELN-Einträge.

Solche Werkzeuge sind eng in den Betrieb der Großforschungsanlagen integriert, und DAPHNE4NFDI fördert nach Möglichkeit gemeinsame Standards und Lösungen.

Durch die Aufteilung des Metadatenerfassungsprozesses in kleine, unabhängige Aufgaben, die in unterschiedlichen Umgebungen und an verschiedenen Einrichtungen wiederverwendet werden können, stellt DAPHNE4NFDI der Community einzelne Pakete (z. B. SciCat <https://www.scicatproject.org/documentation/> oder ELNs) zur Verfügung.


 

Standardisierte Dateiformate sind entscheidend für die Interoperabilität

Das endgültige Ergebnis von Photonen- und Neutronenexperimenten sind Daten. Diese werden typischerweise in Dateien gespeichert. Die Standardisierung der Formate für Daten- und Metadatendateien bietet sowohl Wissenschaftler*innen als auch Einrichtungen Vorteile.

Mitglieder von DAPHNE4NFDI sind aktiv an der Entwicklung von Tools beteiligt, um Daten in bevorzugte gemeinsame Formate wie NeXus/HDF5 <https://www.nexusformat.org/> und OpenPMD <https://www.openpmd.org/> zu konvertieren. Die Akzeptanz solcher Formate nimmt zu, da sich Großforschungsanlagen an gemeinsamen Standards ausrichten.

Für die wissenschaftliche Gemeinschaft führen Standards zu direkt vergleichbaren Daten, sodass Dateien zwischen verschiedenen Einrichtungen transferierbar sind und problemlos gemeinsam verglichen und analysiert werden können. Zudem wird die Vielfalt der Softwareanforderungen für den Zugriff auf die Daten reduziert, Bibliotheken sind wiederverwendbar, und Nutzer*innen sind bereits mit den Programmen vertraut.

Die Einrichtungen profitieren von geeigneter Dateikompression, die im Format integriert ist, sowie von Funktionen wie dem gleichzeitigen Zugriff durch mehrere Leser, die die Verarbeitung beschleunigen können. DAPHNE4NFDI fördert die breite Einführung gemeinsamer Formate in verschiedenen Fachgemeinschaften, um eine nachhaltige Entwicklung voranzutreiben.

Alle Beteiligten profitieren von der Möglichkeit, Schemata zu entwickeln, die direkt in die Dateistruktur integriert werden können.
 

Persistente Proben-Identifikatoren: Die Geburtsurkunde für Proben

TA1 hat bedeutende Fortschritte bei der Implementierung und Nutzung von Persistent Identifiers (PIDs) für Proben gemacht, um das Datenmanagement in der Photonen- und Neutronenwissenschaft zu verbessern. Proben-PIDs, z. B. Internationale Generische Probenummern (IGSN) https://doi.org/10.60578/ceuz-rq0x, gewährleisten eine eindeutige und dauerhafte Identifikation physischer Proben. Durch die Verknüpfung dieser Identifikatoren mit experimentellen Daten, Metadateneinträgen und daraus abgeleiteten Publikationen fördert DAPHNE4NFDI eine verbesserte Auffindbarkeit, Wiederverwendbarkeit und Wiederholbarkeit von Ergebnissen für die PaN-Forschung. Wichtige Initiativen in diesem Bereich umfassen:

  • Einbindung von PIDs in Metadatenstandards und die Etablierung von Workflows

  • Förderung dedizierter Proben-Datenbanksysteme

  • Einheitliche Schemata zur Probenbeschreibung