FAIR Data Principles
Image Attribution: SangyaPundir, CC BY-SA 4.0
Einführung
Die FAIR Data Principles wurden veröffentlicht, nachdem sie auf dem Lorentz Workshop im Jahr 2014 festgelegt worden waren. Diese Grundsätze dienen als Leitlinien sowohl für diejenigen, die Daten veröffentlichen, z. B. Forschende, als auch für diejenigen, die Daten aufbewahren, z. B. Repositorien- oder Archivdienstleister. Dies ist eine wichtige Unterscheidung, die verdeutlicht, dass die Daten von Forschenden nur so FAIR sein können wie die Infrastruktur und die Dienste, die ihm zur Verfügung stehen.
In Anbetracht des langfristigen Ziels, wissenschaftliche Daten für andere wiederverwendbar zu machen, indem eine systematische Ordnung in den ständig wachsenden Datenhaufen aus der Forschung geschaffen wird, legen die FAIR Data Principles einen starken Schwerpunkt auf maschinenlesbare (Meta-)Daten. Zwar müssen auch Menschen in der Lage sein, die veröffentlichten Datensätze zu finden und zu verstehen, doch wird es die Aufgabe von Computern sein, große Datenmengen zu sichten und zu bestimmen, welche Datensätze für den beabsichtigten Zweck relevant sind und wie sie wiederverwendet werden können.
Die Wiederverwendung gut kuratierter Forschungsdaten erleichtert Forschenden die Arbeit und ermöglicht es ihnen, auf früheren Forschungsergebnissen aufzubauen. Darüber hinaus hat die Wiederverwendung von Daten das Potenzial, große Datenbestände für Anwendungen des maschinellen Lernens zu nutzen. So könnten beispielsweise große Mengen an chemischen Synthesedaten zur virtuellen Entwicklung neuer Synthesemethoden oder zur Entdeckung neuer Verbindungen führen.
In der Chemie ist die Hinterlegung von kristallografischen Daten in einem standardisierten Dateiformat (CIF) in einem Repositorium wie dem Cambridge Crystallographic Data Centre (CCDC), das von vielen führenden Zeitschriften der chemischen Gemeinschaft gefordert wird, das wichtigste Beispiel für die Anwendung der FAIR-Datengrundsätze. Um den Anwendungsbereich solcher Standards zu erweitern, arbeitet NFDI4Chem daran, eine Infrastruktur für FAIRe Daten in Deutschland zu schaffen und gleichzeitig Forschende darin zu schulen, die vorhandene Infrastruktur zu nutzen, um sicherzustellen, dass ihre Daten so FAIR wie möglich sind.
Im Folgenden beantworten wir die Fragen: Was macht Daten FAIR? Was müssen Forschende und diejenigen, die Datenerhaltungsdienste anbieten, beachten?
Auffindbar (Findable)
Forschende - und die für sie arbeitenden Computer - müssen in der Lage sein, Datensätze zu finden, um sie wiederverwenden zu können. Daher werden in der ersten Leitlinie der FAIR Data Principles Methoden zur Gewährleistung der Auffindbarkeit eines Datensatzes beschrieben.
F1. (Meta-)Daten werden mit einer weltweit eindeutigen und dauerhaften Kennung versehen
Ein weltweit eindeutiger und persistenter Identifikator (PID) hilft sowohl Maschinen als auch Menschen, die Daten überhaupt erst zu finden. Diese PIDs sind für die Forschung unerlässlich, da sie die Verfügbarkeit der zugehörigen Ressource, in diesem Fall eines Datensatzes, garantieren. Die Registrierungsdienste, die diese Kennungen zur Verfügung stellen, sorgen dafür, dass die Verbindung zur Ressource aufrechterhalten wird, um tote Links zu vermeiden. Dadurch wird sichergestellt, dass die Ressource auffindbar bleibt und einfach durch die Verwendung ihrer PID referenziert werden kann.
Ein gängiges Beispiel für eine zitierfähige PID ist der Digital Object Identifier oder DOI. Wie bei vielen Zeitschriften wird auch bei wissenschaftlichen Datenspeichern ein DOI oft automatisch vergeben. Das Registry of Research Data Repositories, re3data, gibt an, ob ein bestimmtes Repositorium einen Identifikator vergibt, zusammen mit dem PID-Typ. So weisen beispielsweise sowohl die The Cambridge Structural Database (CSD) als auch das Chemotion Repository jedem hinterlegten Datensatz einen DOI zu. Forschende müssen sich dieser Option bei der Suche nach einem geeigneten Repositorium bewusst sein, und die Repositorien sollten diesen Service anbieten.
F2. Daten werden mit umfangreichen Metadaten beschrieben (definiert durch R1 unten)
Daten müssen ausreichend beschrieben werden, damit sie sowohl auffindbar als auch wiederverwendbar sind. Daher liegt der Schwerpunkt auf der Auffindbarkeit von (Meta-)Daten durch die Verwendung umfangreicher Metadaten in einem standardisierten Format, die es Computern und Menschen ermöglichen, den Inhalt des Datensatzes schnell zu verstehen. Dies ist ein wesentlicher Bestandteil der unter R1 beschriebenen Vielzahl von Metadaten. Diese Informationen können unter anderem Folgendes umfassen:
- den Kontext, um den es sich bei dem Datensatz handelt, wie er erstellt wurde und wie er interpretiert werden kann,
- die Qualität der Daten,
- Lizenz- und (Wieder-)Nutzungsvereinbarungen,
- welche anderen Daten möglicherweise damit in Verbindung stehen (verlinkt über die PID), und
- zugehörige Zeitschriftenveröffentlichungen und deren DOI.
Die Repositorien sollten Forschenden ein ausfüllbares Anwendungsprofil zur Verfügung stellen, das es Forschenden ermöglicht, umfassende und genaue Angaben zu ihren hinterlegten Datensätzen zu machen. Das Chemotion Repository zum Beispiel verwendet unter anderem das Datacite Metadata Schema 4.0, um sein Anwendungsprofil zu erstellen, ein Schema, das speziell für die Veröffentlichung und Zitierung von Forschungsdaten entwickelt wurde. RADAR, einschließlich der Variante RADAR4Chem, hat sein Metadatenschema ebenfalls auf Datacite aufgebaut. Diese umfassen eine Reihe von obligatorischen, empfohlenen und optionalen Metadateneigenschaften, die eine umfassende Beschreibung des hinterlegten Datensatzes ermöglichen. Denken Sie bei der Veröffentlichung von Daten immer daran: Je mehr Informationen bereitgestellt werden, desto besser.
F3. Metadaten müssen eindeutig und ausdrücklich die Identifier der beschriebenen Daten enthalten
Während F1 die Zuweisung eines Identifikators vorschreibt, unterstreicht F3 die Bedeutung der Aufnahme dieses Identifikators in die Metadaten selbst. Die Metadaten und der Datensatz, den sie beschreiben, sind in der Regel getrennte Dateien. Durch die Aufnahme der Kennung in die Metadaten werden die Informationen direkt mit dem zugehörigen Datensatz verknüpft.
Außerdem wird der Datensatz möglicherweise nicht zusammen mit den Metadaten veröffentlicht. Bei unveröffentlichten archivierten Datensätzen kann die PID beispielsweise zu einer Methode (z. B. einer Landing Page) führen, mit der die Verantwortlichen für die Daten kontaktiert werden können, anstatt zum Datensatz selbst. Forschende müssen sich dieser Bedeutung bewusst sein, während Repositorien nicht nur eine PID zuweisen müssen, wie in F2 oben beschrieben, sondern auch sicherstellen sollten, dass diese PID eine erforderliche Eigenschaft der Metadaten ist.
F4. (Meta-)Daten werden in einer durchsuchbaren Ressource registriert oder indiziert.
Metadaten werden verwendet, um Indizes zu erstellen, die es Maschinen ermöglichen, effizient nach Datensätzen zu suchen und diese zu finden. Damit dieser Prozess erfolgreich funktioniert, müssen die Metadaten vollständig sein, wie [oben] beschrieben #f2-daten-werden-mit-umfangreichen-metadaten-beschrieben-definiert-durch-r1-unten). Die Repositorien sollten sicherstellen, dass die für einen hinterlegten Datensatz eingegebenen Metadaten in einem maschinenlesbaren Format vorliegen, um die Zuordnung von Indizes zu erleichtern.
Zugänglich (Accessible)
Zugänglich bedeutet, dass Menschen und Maschinen Anweisungen erhalten, wie sie die Daten erhalten können. Es ist zu beachten, dass FAIR nicht mit offen gleichzusetzen ist, wie in A1.2 näher erläutert wird.
A1. (Meta-)Daten sind über ihren Identifier unter Verwendung eines standardisierten Kommunikationsprotokolls abrufbar
Um den Zugang zu Datensätzen zu gewährleisten, werden dauerhafte Identifikatoren wie DOIs vorgeschlagen, die mit Standardmethoden aufgelöst werden. Zu den gängigen Protokollen gehören http(s) oder (s)ftp.
A1.1 Das Protokoll ist offen, frei und universell implementierbar
Repositorien sollten nur Protokolle verwenden, die es jedem Computer erlauben, zumindest auf die Metadaten zuzugreifen. Dies bezieht sich nicht nur auf die Verwendung von Standard-Kommunikationsprotokollen, wie in A1 angegeben, sondern diese Protokolle müssen auch frei verfügbar und Open-Source sein. Daher sollten proprietäre oder nicht standardisierte Protokolle vermieden werden.
A1.2 das Protokoll ermöglicht ein Authentifizierungs- und Autorisierungsverfahren, falls erforderlich
Erforderlichenfalls müssen maschinenlesbare Protokolle vorhanden sein, die dem Nutzer mitteilen, dass für den Zugriff auf die Daten eine Aktion erforderlich ist (z. B. ein Login). FAIR-Daten und offene Daten sind keine Synonyme: FAIR-Daten setzen voraus, dass klar angegeben wird, wie auf die Daten zugegriffen werden kann, im Gegensatz zur Gewährung des uneingeschränkten Zugangs für jeden. Dies kann vor allem bei sensiblen Daten wichtig sein, wenn beispielsweise personenbezogene Daten und/oder medizinische Informationen offengelegt werden können. Daher sollten Repositorien auch die Möglichkeit bieten, dass sich die Nutzer (und ihre Computer) identifizieren können, so dass eine Zugriffsberechtigung erteilt werden kann.
A2. Metadaten sind zugänglich, auch wenn die Daten nicht mehr verfügbar sind
Die Metadaten, die einen Datensatz beschreiben, sollten in einer separaten Datei gespeichert werden, damit sie auch dann noch verfügbar sind, wenn auf die Datensätze selbst nicht mehr zugegriffen werden kann. Probleme mit der Verfügbarkeit von Datensätzen sind in der Regel auf 1) die Kosten für die Pflege und Speicherung vollständiger Datensätze und 2) die Veralterung von Dateiformaten im Zuge der Weiterentwicklung von Technologien zurückzuführen. Die Pflege von Metadaten-Dateien ist billiger und einfacher und gewährleistet, dass zumindest Details wie Kontaktinformationen verfügbar bleiben. Diese Dateien sollten daher für immer archiviert werden.
Ein Repositorium sollte einen Notfallplan für die Speicherung von Metadaten für den Fall aufstellen, dass der Dienst nicht mehr existiert, z. B. die Migration zu einem anderen Anbieter von Repositorien, wobei die Integrität der dauerhaften Kennung gewährleistet sein muss.
Interoperabel
Die Daten müssen mit anderen Datensätzen integriert und/oder verglichen werden, und die Computer müssen in der Lage sein, die Informationen zu interpretieren und auszutauschen. Im Idealfall sind sie mit Standardanwendungen kompatibel und können so in (automatisierte) Verarbeitungs- und Analyseabläufe integriert werden. Interoperabilität fungiert oft als Vorläufer der Wiederverwendbarkeit, da sie die Kompatibilität zwischen Systemen gewährleistet.
I1. (Meta-)Daten eine formale, zugängliche, gemeinsame und allgemein anwendbare Sprache zur Wissensdarstellung verwenden
Maschinen müssen verstehen können, wie sie Informationen austauschen und interpretieren können. Ähnlich wie beim Menschen hilft eine einheitliche und standardisierte Sprache bei diesem Verständnis. In der Chemie ist ein typisches Beispiel für einen solchen Standard für den Informationsaustausch die crystallographic information (CIF). Dieser Standard hält sich auch an die in I2 und R1.3 beschriebenen Aspekte. Vereinfacht ausgedrückt, gewährleisten Standarddateiformate für eine bestimmte Analysemethode, dass die Daten und die zugehörigen Metadaten, die z. B. typischerweise Messdetails enthalten, einem vorgeschriebenen Format folgen. Dadurch wird sichergestellt, dass sowohl Menschen als auch Maschinen die Informationen erhalten, die zur Interpretation der Daten erforderlich sind.
Insbesondere bei den Metadaten hängt die effektive und effiziente maschinelle Lesbarkeit stark davon ab, dass Mehrdeutigkeiten reduziert werden. Metadaten liefern den Kontext zu den Datensätzen. Maschinen müssen jedoch in der Lage sein, diesen Kontext zu interpretieren. Daher sollten die von den Repositorien gewählten strukturierten Schemata universell angewandte Ontologien und kontrollierte Vokabulare enthalten, um Beziehungen zu definieren und Mehrdeutigkeit zu vermeiden. Zum Beispiel sollten chemiespezifische Repositorien so konzipiert sein, dass sie Ontologien wie die Chemical Methods Ontology (CHMO) oder die Chemical Information Ontology (CHEMINF) nutzen, um die bereitgestellten (Meta-)Daten genau zu beschreiben. Solche Ontologien sollten auf weit verbreiteten Datenmodellen beruhen, z. B. dem Resource Description Framework (RDF).
I2. (Meta-)Daten verwenden Vokabulare, die den FAIR-Grundsätzen entsprechen
Die verwendeten Vokabulare oder Ontologien sollten gut dokumentiert und über eine PID auflösbar sein. Das oben erwähnte CHMO verwendet zum Beispiel eine persistent URL (PURL), die mit einem Standard-Webbrowser über http
aufgelöst werden kann, während die Dokumentation auf Github öffentlich zugänglich ist.
I3. (Meta-)Daten enthalten qualifizierte Verweise auf andere (Meta-)Daten
Verwandte Datensätze sollten auf zuverlässige Weise verknüpft werden, vorzugsweise über ihre PIDs. Dazu gehören alle früheren Versionen, Datensätze, die für die vollständige Nutzung und das Verständnis des aktuellen Datensatzes erforderlich sind, oder Datensätze, auf denen der Datensatz aufbaut. Diese Beziehung sollte auch auf sinnvolle Weise beschrieben werden. Datensatz X eine Vorgängerversion von Datensatz Y ist, sollte er als solcher beschrieben werden und nicht einfach als verwandter oder zugehöriger Datensatz bezeichnet werden. Repositorien sollten eine Methode vorsehen, um in ihren Metadaten auf andere Datensätze Bezug zu nehmen.
Wiederverwendbar (Reusable)
Viele der vorangegangenen Punkte führen zu einem Schlüsselaspekt der gemeinsamen Datennutzung: die Wiederverwendbarkeit der Daten. Datensätze müssen so beschrieben werden, dass der Benutzer leicht feststellen kann, wie und unter welchen Bedingungen die Daten wiederverwendet werden können.
R1. (Meta-)Daten sind umfassend mit einer Vielzahl von genauen und relevanten Attributen beschrieben.
In Anlehnung an F2 oben liegt der Schwerpunkt hier darauf, ob die Daten, sobald sie gefunden wurden, für die suchende Person oder den Computer nutzbar sind. Außerdem wird betont, dass die Daten mit möglichst vielen Attributen versehen werden sollten. Forschende sollten nicht davon ausgehen, dass die Person - oder der Computer dieser Person -, die ihre Daten wiederverwenden möchte, mit dem Fachgebiet vollständig vertraut ist. Beispiele für Informationen, die hier angegeben werden sollten, sind (nicht vollständige Liste):
- Was der Datensatz enthält, einschließlich der Angabe, ob es sich um Rohdaten und/oder verarbeitete Daten handelt
- Wie die Daten verarbeitet wurden
- Wie die Daten wiederverwendet werden können
- Wer die Daten erstellt hat
- Datum der Erstellung
- Namen der Variablen
- Verwendete Standardmethoden
- Umfang der Daten und des Projekts
- Laborbedingungen
- Etwaige Einschränkungen der Daten
- Für die Erfassung und Verarbeitung verwendete Software und Versionen.
Eine wichtige Information für chemische Daten ist eine maschinenlesbare chemische Struktur. Diese sollte im Datensatz und/oder in den Metadaten enthalten sein und hilft Computern, bei ihren Abfragen die richtigen Daten zu finden.
Repositorien sollten Datenherausgebern die Möglichkeit bieten, eine Vielzahl von Informationen in ihre Metadaten aufzunehmen. Dazu gehört auch eine breite Palette von optionalen und frei auszufüllenden Feldern, die die Datenverleger ausfüllen können.
R1.1. (Meta-)Daten werden mit einer klaren und zugänglichen Datennutzungslizenz freigegeben
Die Metadaten sollten menschen- und maschinenlesbare Nutzungsbedingungen enthalten, wie z. B. eine Lizenz. Creative Commons Lizenzen werden häufig für wissenschaftliche Daten verwendet. re3data listet auf, ob ein Repositorium Forschern erlaubt, bei der Hinterlegung von Daten direkt eine Lizenz oder eine Nutzungsvereinbarung auszuwählen. Zumindest sollten Repositorien den Forschern die Möglichkeit geben, eine Lizenzdatei hinzuzufügen.
R1.2. (Meta-)Daten sind mit einer detaillierten Herkunft verbunden
Vereinfacht ausgedrückt: Metadaten beinhalten jede relevante Historie. Wenn der Datensatz mit anderen Datensätzen in Verbindung steht oder auf den Daten anderer Forschender basiert, sollten diese über ihre PID verlinkt werden, wie in I3 beschrieben. Dazu gehört auch, dass andere für ihre Arbeit zitiert oder gewürdigt werden, was auch deren Lizenz- oder Nutzungsvereinbarungen berücksichtigt (siehe R1.1. Darüber hinaus sollten die Metadaten maschinenlesbare Informationen darüber enthalten, wie die Daten erzeugt oder verarbeitet wurden.
R1.3. (Meta-)Daten entsprechen fachlichen Gemeinschaftsstandards
Da sich das Management von Forschungsdaten und damit auch die Datenpublikation in allen Forschungsbereichen immer mehr durchsetzt, werden in den einzelnen Communities best practices entstehen. Dazu gehören Metadatenvorlagen für die ordnungsgemäße Dokumentation von Datensätzen, die Art und Weise, wie die Daten organisiert werden sollten, welche Vokabulare oder Ontologien zu verwenden sind, und Dateiformate. NFDI4Chem arbeitet an der Erstellung von Metadaten- und Datenstandards für die verschiedenen Gemeinschaften in der Chemie.
Soweit verfügbar, sollten die Standards und bewährten Praktiken der Gemeinschaft befolgt werden, wenn die Herausgeber ihre Datensätze und relevanten Metadaten für die Veröffentlichung vorbereiten. Repositorien, insbesondere domänenspezifische Dienstleister, sollten sich an die von der Gemeinschaft festgelegten Standards halten, indem sie verlangen, dass Dateien und Metadaten den Formatspezifikationen entsprechen. Wie in I1 oben erwähnt, stellt das CIF-Format einen gemeinschaftsspezifischen Standard dar, der mit der chemischen Gemeinschaft assoziiert ist. Darüber hinaus stellt NMReDATA ein mögliches Standarddateiformat für die Veröffentlichung und Archivierung von Kernspinresonanzdaten (NMR) dar.
Falls erforderlich, sollten Formatkonverter in den Metadaten des Datensatzes verlinkt werden.
Quellen und weitere Informationen
- FORCE 11: FAIR-Datengrundsätze
- Go-FAIR-Initiative: FAIR-Grundsätze
- TIB-Blog: Die FAIR-Datengrundsätze für Forschungsdaten
- FAIRsFAIR: Wie man mit seinen Daten FAIR ist. Ein Lehr- und Ausbildungshandbuch für Hochschuleinrichtungen & Engelhardt et al. (Buchversion) & Gitbook-Version
- Checklist: How FAIR are your data?