Böker / CC BY 4.0

Datenvalidierung

Daten für die Archivierung auswählen und bewerten

Forschungsdaten sollen im Rahmen der guten wissenschaftlichen Praxis für bis zu 10 Jahre aufbewahrt werden. Immer mehr Drittmittelgeber erwarten zudem Angaben, wo die erhobenen Daten gesichert werden. Dennoch ist es weder technisch noch ökonomisch möglich alle Daten, die während eines Forschungsprojektes erhoben wurden, aufzubewahren. Vertreterinnen und Vertreter von Infrastruktureinrichtungen stehen aufgrund von knapper werdenden Ressourcen vor der Wahl, welche Forschungsdaten in welcher Form archiviert werden sollen. Auch Forschungsdaten-Repositorien befinden sich zunehmend in diesem Dilemma. Folglich ist es für Wissenschaftlerinnen und Wissenschaftler notwendig nach Abschluss des Projektes eine Datenbewertung vorzunehmen, die die Grundlage für eine Entscheidung darüber bildet, welche Daten archiviert werden sollen oder müssen.

Solch eine objektive Datenevaluierung richtet sich nach folgenden Kriterien:

Bedarf, Verifizierbarkeit, Dokumentation, Qualität, Einzigartigkeit, Technische Erhaltung, Kosten, Rechte

Welche Daten und für wie lange?

Im Allgemeinen hängt die Entscheidung darüber, was beibehalten werden muss, von den Prioritäten des Datenschöpfers ab, d. h. wie wertvoll sind die Daten für eine Weiterverwendung/Nachnutzung unter Berücksichtigung der Kosten zur Vorbereitung einer langfristigen Nutzung.[1]

Sind die Daten ‚gut‘ genug? Sprich: gibt es genügend Informationen über die Daten wie z. B. ein DMP auf neuestem Stand: Was beschreiben diese Daten, wie und warum wurden sie aufgenommen, wie wurden die Daten bearbeitet. Daraus leitet sich die Qualität der Daten und deren Nachnutzbarkeit ab.

Auswahl der passenden Datentypen zur Wiederverwendung

  1.  Primärdaten (Datenquelle): Daten, die originär gesammelt oder erstellt wurden
  2. Zusammengestellte Datensätze: Daten, die aus den eigenen oder fremden Datenquellen extrahiert oder abgeleitet wurden
  3. Referenzierte Daten: Daten, die aus einer Teilmenge der Primärdaten verarbeitet wurden, um die Analyse weiter zu verfolgen oder daraus Schlüsse zu ziehen.

Diese Entscheidung muss aber auch den rechtlichen, regulatorischen oder politischen Compliance-Fragen Rechnung tragen. Dies hängt vor allem davon ab, ob und zu welchen Bedingungen die Daten öffentlich zugänglich sein können oder der Zugang beschränkt werden muss.

Leitlinien zur Datenaufbewahrung

Schritt 1: Welche Daten müssen aufbewahrt werden?

  • Forschungsdaten-Policy: Eine Datenaufbewahrung ist in der Forschungsdaten-Policy festgelegt
  • Journal-Policy: Artikel wurde bei einem Journal eingereicht, das Datenverfügbarkeit verlangt
  • Richtlinien: Disziplinarverordnungen (z. B. Forschungsprotokoll) oder andere Bestimmungen (Förderrichtlinien) verlangen eine Aufbewahrung
  • Gesetzliche oder vertragsbindende Gründe: Daten haben kommerziellen Wert oder sollen als Patent angemeldet werden; Vertragsbedingungen oder Bedingungszustände verlangen eine Datenaufbewahrung
  • Personenbezogene Daten: Datennutzung erfordert Ethikzulassung, Zustimmungsvereinbarung oder Einverständniserklärung. Kann die Datensicherheit durch einen Sicherheitsstandard (z. B. ISO27001) und Datenschutz durch Anonymisierung der Daten gewährleistet werden?

Schritt 2: Welche Zwecke können die Daten über den eigentlichen Forschungskontext hinaus erfüllen? Wie relevant sind die Forschungsdaten für eine eventuelle Wiederverwendung?

  • Verifizierung: Anderen zu ermöglichen, dem Prozess zu folgen, der zu veröffentlichten Ergebnissen führt und diese möglicherweise reproduzieren oder verifizieren kann
  • Weitere Analyse: Die Möglichkeiten für weiterführende Analysen erhöhen durch z. B. neue Methoden, Integration mit anderen Quellen für die Metaanalyse (neue Kooperationen oder Drittanalysen)
  • Community-Ressourcenentwicklung: Veröffentlichen einer Datenressource mit Wert zu einer bekannten Benutzergruppe, z. B. einem Referenzdatensatz, Methodenprüfstand oder Domänendatenbank
  • Akademische Reputation aufbauen:  Daten, die auffindbar sind, haben eine größere Sichtbarkeit, die die Zitationsraten für die veröffentlichten Ergebnisse steigern können
  • Weitere Veröffentlichungen: Die Veröffentlichung eines Datenartikels wird zur wissenschaftlichen Kommunikation und Diskussion über Datenverwaltung oder Wiederverwendung in Ihrem Bereich beitragen
  • Lernen & Lehre: Einbettung von Daten in eine Lern- / Lehr- oder Public-Engagement-Ressource, um deren Interaktivität zu verbessern; Nutzer in das Lernen oder die Teilnahme an der Forschung einzubeziehen
  • Private Nutzung: leichteres Auffinden der Daten in den kommenden Jahren, um andere potenzielle Anwendungen zu nutzen

Schritt 3: Welche Daten sollen behalten werden?

  • Datenqualität: Adäquate Qualität bezogen auf Vollständigkeit, Stichprobenumfang, Genauigkeit, Gültigkeit, Zuverlässigkeit, Repräsentativität
  • Integrierungspotenzial: Können die Daten zu standardisierten Begriffen/Bedingungen in anderen Forschungsgebieten passen…z. B. geographische Orte, Zeitperioden? Empfiehlt die Fachcommunity das Teilen der Daten?
  • Nachnutzungspotenzial: Wie wahrscheinlich ist eine Nachfrage? Sind die Daten in einem Format, das keine Lizenzgebühren oder proprietäre Soft-/Hardware zur Wiederverwendung benötigt bzw. ist die proprietäre Soft-/Hardware weit verbreitet?
     
  • Rechtliche Rahmenbedingungen: Sind die Daten nach ihrer Sensibilität eingestuft worden und frei von datenschutzrechtlichen, vertraglichen Einschränkungen, Lizenz- oder Urheberrechtsbestimmungen, die den Zugang der Öffentlichkeit und die Wiederverwendung beschränken?
     
  • Reputation: Sind die Daten von einer Forschungsgruppe produziert, die für die Originalität, Bedeutung und Sorgfalt ihrer vorhergehenden Forschungsergebnisse hoch bewertet wurde?
  • Attraktivität: Könnten die Daten breiten Anklang finden z. B. in dem sie sich auf eine Meilenstein-Erkenntnis, einen bedeutungsvollen neuen Forschungsprozess oder eine internationale Policy und Sozialbelange beziehen?
  • Reproduzierbarkeit: Wie schwierig ist es, diese Daten zu reproduzieren? Schwer, teuer oder gar unmöglich (Beispiel: Beobachtungen)?
  • Einzigartig: Ist dies die einzige und vollständigste Kopie der Daten? Auf Risiko: Sind die Daten irgendwo, die eine langfristige Lagerung nicht garantieren können?

Schritt 4: Welche Daten und Informationen werden für eine Nachnutzung gebraucht?

  • Weitere Publikationen: Referenzierte Daten mit zusätzlicher Dokumentation (Metadaten)
  • Lernen & Lehren: Proben von Originaldaten und zusammengestellten Daten inklusive Analyseschritte
  • Verifikation: Referenzierte Daten inklusive Analyseschritte
  • Weitere Analyse: Alle Originaldaten inklusive der Software, die zur Datenerhebung verwendet wurde

Schritt 5: Wurden die Kosten abgewogen?

  • Vorbereitungskosten:  Kosten, die sowohl während des Forschungsprozess als auch bei der Vorbereitung zum Archivieren entstehen
  • Aufbewahrungskosten: Gesondert anfallende Kosten für Aufbewahrung und Pflege nach der Forschungsperiode

Datenauswahl zur längerfristigen Aufbewahrung/Archivierung

  1. Potenzieller Wiederverwendungszweck - Welche Ziele könnten mit den Daten erreicht werden?
  2. Gibt es eventuell Interessenskonflikte (Policies bzw. Urheber-/Datenschutzrechte), die bedacht werden müssen?
  3. Welche Daten könnten einen langfristigen Wert haben und sollten daher behalten werden?
  4. Abwägung der Kosten - Welche Datenverwaltungskosten sind bereits angefallen und tragen damit zu ihrem Wert bei? Fallen weitere Daten an und ist deren Verwaltung erschwinglich? Gibt es zusätzliche Mittel, um diese Kosten zu decken?[2]

Mit Hilfe einer Bewertungsliste, die die potenziellen Wiederverwendungszwecke und die damit verbundenen Maßnahmen zur Datenvorbereitung zwecks Datenhinterlegung zusammenfasst (oder auch die Rechtfertigung, diese nicht zu behalten), können nicht nur die anfallenden Kosten ermittelt werden, sondern es kann auch entschieden werden, ob eine externe Beratung notwendig ist, z. B. wie mit Budget-Defiziten umgegangen werden kann/soll. Eine Anleitung dazu findet sich auf den Seiten des DCC.

Einzelnachweise

  1.  DCC (2014). 'Five steps to decide what data to keep: a checklist for appraising research data v.1'. Edinburgh: Digital Curation Centre
  2.  UK Data Archive (2015) Data management costing tool and checklist.