Pexels / Pixabay / Pixabay-Lizenz

Publizieren großer Datenmengen

Der Wunsch oder die Pflicht, Datensätze zu publizieren, kann bei großen Datensätzen zu Kopfzerbrechen führen. Welche Repositorien bieten die benötigten Speichermengen an? Kann ein Datensatz von mehreren Petabyte überhaupt publiziert werden? Und wer soll mit all den riesigen Datensätzen arbeiten – außerhalb einer kleinen Gruppe von Spezialist*innen mit den entsprechenden technischen Möglichkeiten?

Grundsätzlich ist es sinnvoll, nicht nur die aufbereiteten bzw. analysierten Datensätze zu teilen, sondern auch die Rohdaten, denn diese erlauben es, die Grundannahmen und Verarbeitungsstrategien zu überprüfen, die zu den publizierten Ergebnissen führten. Wenn Datensätze und die Kosten für die Speicherung zu groß sind, ist eine Möglichkeit, nur die Daten zu veröffentlichen, die nötig sind, um publizierte Ergebnisse (z.B. Visualisierungen) nachzuvollziehen und ggfs. zu reproduzieren, und den Code, der zur Aufbereitung und Auswertung der Daten genutzt wurde. Dies deckt sich auch mit den Vorgaben der meisten Fördergeldgeber. Intermediärdaten – also Daten in verschiedenen Bearbeitungsstufen vor der zur Analyse aufbereiteten Form – müssen hingegen in der Regel nicht geteilt werden.

Ist die Entscheidung gefallen, große Datensätze zu teilen, gilt es, ein passendes Repositorium zu finden. Viele Repositorien akzeptieren auf Anfrage auch Datensätze, die grösser sind als die festgeschriebenen Limits, allerdings können dafür Gebühren anfallen. Eine Besonderheit stellt das zu SpringerNature gehörende Repositorium Figshare mit dem Dienst Figshare+ dar. Dieser publiziert gegen einmalige Gebühr sehr große Datensätze bis 2 TB und darüber. Das Angebot beruht auf AWS S3 und sollte also für Personen- und andere sensible Daten nicht genutzt werden.

Soll das Publizieren großer Rohdatensätze aus Kosten- oder anderen Gründen vermieden werden, besteht die Möglichkeit, die Rohdaten nur auf Anfrage zu teilen. In diesem Fall kann man bei einem Repositorium einen Metadateneintrag erstellen und Zugangsbedingungen und Kontaktdaten hinterlegen. Diese Option kann man auch nutzen, wenn die analysierten Daten geteilt werden. Eine aussagekräftige Dokumentation und Beschreibung mit Metadaten vorausgesetzt, entsprechen solche Datensätze immer noch den FAIR-Kriterien. Für den Transfer können dann die im Text Speichern und Übertragen großer Datenmengen vorgestellten Strategien eingesetzt werden.