Da­ten­orga­ni­sa­tion

Grundlagen der Datenverwaltung

Der Umgang mit Forschungsdaten ist für viele Wissenschaftlerinnen und Wissenschaftler die Grundlage ihrer täglichen Arbeit. Es spart daher Zeit und Aufwand, wenn diese Daten von vorneherein effizient strukturiert, dokumentiert und gesichert werden. Grundlegende Hinweise und Tipps dazu bieten die folgenden Abschnitte.

Auf einen Blick: Vorteile der Datenverwaltung

  1. Spart Zeit und Aufwand bei der täglichen Arbeit mit Forschungsdaten
  2. Vereinfacht die Nachnutzung von Daten durch klare Strukturen
  3. Verringert die Gefahr von Datenverlust

Daten organisieren

Ein erster Schritt um effizient mit Daten umzugehen, ist die Erstellung und Nutzung einer klaren Struktur. Wissenschaftlerinnen und Wissenschaftler, die neu in eine Forschungsgruppe kommen, können sich zunächst erkundigen, ob in der Arbeitsgruppe bereits vorgegebene Strukturen existieren. Ist dies der Fall kann sich an diesen Best Practices orientiert werden.

Zu einer effektiven Datenorganisation gehören grundlegende Punkte wie das Verwenden einer Ordnerstruktur. Jeder Ordner enthält strukturell oder inhaltlich zusammengehörende Daten und sollte dementsprechend benannt werden. Eine Ordnerbenennung nach Mitarbeiterinnen und Mitarbeitern empfiehlt sich nicht, da nicht sofort ersichtlich ist, was sich in einem solchen Ordner verbirgt. Am besten geeignet, da am übersichtlichsten, ist eine Ordnerhierarchie mit nicht mehr als 2-3 Ebenen. Um die Anzahl an Ordnern und Unterordnern so gering wie möglich zu halten, empfiehlt es sich, nach jedem Projekt zu überprüfen, welche Daten, und damit welche Ordner, aufbewahrt werden müssen und welche gelöscht werden können.

Auf einen Blick: Tipps für die Organisation von Daten

  1. Bestehende Best Practices nutzen
  2. Daten in Ordnern ablegen
  3. Systematische, inhaltsbezogene Ordnerbenennung verwenden
  4. Nicht mehr als drei Unterordner-Ebenen verwenden
  5. Nach Projektende prüfen, was noch gebraucht wird

Versionskontrolle

Ebenso wichtig wie eine gute Organisation von Daten in Ordnerstrukturen, ist ein effizienter Umgang mit den einzelnen Daten oder Datensätzen selbst. Dies gilt besonders wenn Datensätze im Laufe des Forschungsvorhabens Veränderungen unterliegen. Ein wichtiger Bestandteil einer Organisationsstrategie ist daher eine funktionierende Versionskontrolle.

Herzstück einer funktionierenden Versionskontrolle ist eine präzise, selbsterklärende Bennennungskonvention. Die Bezeichnung der einzelnen Datensätze sollte sequentiell sein und neben der Versionsnummer das Speicherdatum beinhalten. Dieses sollte dem YYYYMMDD-Format folgen, um spätere Sortierungsvorgänge zu erleichtern. Wenn ein Datensatz abschließend bearbeitet wurde, sollte die Version als final gekennzeichnet werden.

Weitere ergänzende Maßnahmen könnten in schriftlich festgehaltenen Absprachen zu Verantwortlichkeiten beim Fertigstellen von Datensätzen sowie im Führen einer Versionstabelle bestehen. In einer solchen Tabelle werden sämtliche Änderungen und neuen Benennungen festgehalten, um diese später nachvollziehen zu können. Für Forschende, die mit sehr großen Mengen von Daten umgehen, lohnt sich eventuell auch eine Investition in eine Versionsverwaltungs-Software. Eine Liste von Open Source-Versionsverwaltungssoftware  finden Sie hier.  

Um einen Datenverlust durch parallele Arbeit mehrerer User zu minimieren, können in regelmäßigen Abständen sogenannte ‘Meilenstein-Versionen‘ an einem dafür vorgesehenen Ort gespeichert werden, welche nicht geändert oder gelöscht werden dürfen.

Auf einen Blick: Tipps zur Versionskontrolle

  1. Sequentielle Nummerierung verwenden
  2. Datum und Versionsnummer in die Benennung einbeziehen
  3. Nutzung einer Versionskontrolltabelle
  4. Verantwortlichkeit für die Fertigstellung von Dateien festlegen
  5. Bei großen Datenmengen ggf. Versionsverwaltungs-Software verwenden
  6. Meilenstein-Versionen speichern