Da­ten­orga­ni­sa­tion

Grundlagen der Datenverwaltung

Bild von Charles Tilford/CC BY-NC-SA 2.0

Der Umgang mit Forschungsdaten ist für viele Wissenschaftler die Grundlage ihrer täglichen Arbeit. Es spart daher Zeit und Aufwand, wenn diese Daten von vorneherein effizient strukturiert, dokumentiert und gesichert werden. Grundlegende Hinweise und Tipps dazu bieten die folgenden Abschnitte.

Auf einen Blick: Vorteile der Datenverwaltung

  1. Spart Zeit und Aufwand bei der täglichen Arbeit mit Forschungsdaten
  2. Vereinfacht die Nachnutzung von Daten durch klare Strukturen
  3. Verringert die Gefahr von Datenverlust

Daten organisieren

Ein erster Schritt um effizient mit Daten umzugehen, ist die Erstellung und Nutzung einer klaren Struktur. Wissenschaftler, die neu in eine Forschungsgruppe kommen, können sich zunächst erkundigen, ob in der Arbeitsgruppe bereits vorgegebene Strukturen existieren. Ist dies der Fall kann sich an diesen Best Practices orientiert werden.

Zu einer effektiven Datenorganisation gehören grundlegende Punkte wie das Verwenden einer Ordnerstruktur. Jeder Ordner enthält strukturell oder inhaltlich zusammengehörende Daten und sollte dementsprechend benannt werden. Eine Ordnerbenennung nach Mitarbeitern empfiehlt sich nicht, da nicht sofort ersichtlich ist, was sich in einem solchen Ordner verbirgt. Am besten geeignet, da am übersichtlichsten, ist eine steile Ordnerhierarchie mit nicht mehr als 2-3 Ebenen. Um die Anzahl an Ordnern und Unterordnern so gering wie möglich zu halten, empfiehlt es sich, nach jedem Projekt kritisch zu überprüfen, welche Daten, und damit welche Ordner, aufbewahrt werden müssen und welche gelöscht werden können.

Auf einen Blick: Tipps für die Organisation von Daten

  1. Bestehende Best Practices nutzen
  2. Daten in Ordnern ablegen
  3. Systematische, inhaltsbezogene Ordnerbenennung verwenden
  4. Nicht mehr als drei Unterordner-Ebenen verwenden
  5. Nach Projektende prüfen, was noch gebraucht wird

Versionskontrolle

Ebenso wichtig wie eine gute Organisation von Daten in Ordnerstrukturen, ist ein effizienter Umgang mit den einzelnen Daten oder Datensätzen selbst. Dies gilt besonders wenn Datensätze im Laufe des Forschungsvorhabens Veränderungen unterliegen.Ein wichtiger Bestandteil einer Organisationsstrategie ist daher eine funktionierende Versionskontrolle.

Herzstück einer funktionierenden Versionskontrolle ist eine präzise, selbsterklärende Bennennungskonvention. Die Bezeichnung der einzelnen Datensätze sollte sequentiell sein und neben der Versionsnummer das Speicherdatum beinhalten. Dieses sollte dem YYYYMMDD-Format folgen, um spätere Sortierungsvorgänge zu erleichtern. Wenn ein Datensatz abschließend bearbeitet wurde, sollte die Version als final gekennzeichnet werden.

Weitere ergänzende Maßnahmen könnten in schriftlich festgehaltenen Absprachen zu Verantwortlichkeiten beim Fertigstellen von Datensätzen sowie im Führen einer Versionstabelle bestehen. In eine solche Tabelle werden sämtliche Änderungen und neuen Benennungen festgehalten, um diese später nachvollziehen zu können. Für Forschende, die mit sehr großen Mengen von Daten umgehen, lohnt sich eventuell auch eine Investition in eine Versionsverwaltungs-Software. Eine Liste von Open Source Versionsverwaltungssoftware finden Sie hier.  

Um einen Datenverlust durch überlappende Arbeit mehrerer User zu minimieren, können in regelmäßigen Abständen sogenannte ‘Meilenstein-Versionen‘ an einem dafür vorgesehenen Ort gespeichert werden, welche nicht geändert oder gelöscht werden dürfen.

Auf einen Blick: Tipps zur Versionskontrolle

  1. Sequentielle Nummerierung verwenden
  2. Datum und Versionsnummer in die Benennung einbeziehen
  3. Nutzung einer Versionskontrolltabelle
  4. Verantwortlichkeit für die Fertigstellung von Dateien festlegen
  5. Bei großen Datenmengen ggfs. Versionsverwaltungs-Software verwenden
  6. Meilenstein-Versionen speichern

Datensicherheit und Backup

Das beste Datenmanagement läuft ins Leere, wenn Forschungsdaten nicht ausreichend vor unbefugtem Zugriff oder Datenverlust geschützt sind. Deshalb sind Backup- und Datensicherungsmaßnahmen unerlässlich. Je nach Fachbereich und Forschungsgebiet gelten unterschiedliche Anforderungen. Handelt es sich beispielsweise um sensible, personenbezogene Daten? Sind die Daten aufgrund ihrer Natur einmalig oder können sie bei Verlust nacherhoben werden? Dies sind Aspekte die bei der Etablierung von Sicherungsmaßnahmen beachtet werden sollten. Ganz generell gibt es jedoch auch grundlegende Maßnahmen, von denen Alle, die mit Forschungsdaten umgehen, profitieren können.

Im Bereich Backup gilt es beispielsweise diese regelmäßig, am besten zu einem festgelegten Zeitpunkt, durchzuführen. Backup-Dateien sollten sinnvollerweise auf einem anderen Medium und getrennt von den Originaldaten aufbewahrt werden. Dies gilt insbesondere dann, wenn Originaldaten auf einer externen Cloud-Umgebung aufbewahrt werden. Ebenso sollte daran gedacht werden nicht nur die Daten selbst, sondern auch notwendige Softwareanwendungen in die Backup-Strategie einzubeziehen. An vielen Universitäten bieten die Serviceeinrichtungen bereits Backupmöglichkeiten und -routinen an, die zum Großteil automatisiert ablaufen und so dem Nutzer Sicherheit geben. Alternativ existieren viele freie und proprietäre Softwarelösungen zum Thema Backup.

Neben der Durchführung regelmäßiger Sicherungskopien ist es wichtig, Daten vor unbefugtem Zugriff zu schützen. Dies gelingt am einfachsten durch die Belegung von Dateien und Ordnern mit einem Passwortschutz. Um einen Überblick über passwortgeschützte Dokumente und Daten zu behalten, kann es sinnvoll sein, mit einer Passwortmanagement-Software zu arbeiten. Hierfür ist beispielsweise die Open Source Software KeePass geeignet. Zusätzlich zu einem Passwortschutz ist bei personenbezogenen und/oder sensiblen Daten in der Regel eine Pseudonymisierung beziehungsweise Anonymisierung des Datensatzes erforderlich.

Auf einen Blick: Tipps zu Backup und Datenschutz

  1. Pseudonymisierung und Anonymisierung vertraulicher Daten (Verwendung einer ID)
  2. Passwortschutz verwenden
  3. Regelmäßige Backups zu einem festgelegten Zeitpunkt durchführen
  4. Backups getrennt von Originalen aufbewahren
  5. Ggfs. Backupsysteme der Universität nutzen
  6. Ggfs. Softwareanwendungen u.ä. in die Sicherungsmaßnahmen einbeziehen