Archivierung großer Daten­mengen in der Archäologie

Das Troia-Projekt (1987-2012)

Projektbeschreibung

Der heute als Troia (auch Troja, türkisch Hisarlık) bekannte Ort ist eine archäologische Fundstelle wenige Kilometer südlich der Dardanellen im Nordwesten der Türkei (Provinz Çanakkale). Der zentrale Ruinenhügel besteht aus den Überresten einer Reihe von bronzezeitlichen befestigten Siedlungen (ca. 3000-950 v. Chr.). Vor allem während der Spätbronzezeit gegen Ende des 2. Jahrtausends v. Chr. war auch ein größeres Gebiet außerhalb der Burg bewohnt („Unterstadt“). Später lag auf und um den Hügel die griechische und römische Stadt Ilion (Ilium).

Forschungsdaten im Projekt

Forschungsgeschichtlich bedingt fielen im Laufe der Jahrzehnte zahlreiche, heterogene Daten an. Diese reichen von der photographischen Dokumentation der Befunde und Funde über die handschriftliche Grabungsdokumentation bis zur digitalen Aufbereitung und Verarbeitung der Daten mit sogenannten Geographischen Informationssystemen (GIS).

Durch die Menge der Daten und ihre Heterogenität ist dieses Langzeitprojekt ein interessantes Beispiel für den Umgang mit analogen, digitalisierten und digitalen Forschungsdaten in den Geisteswissenschaften.

Nach Abschluss der Grabungen und der assoziierten Projekte begannen 2016 die Bestrebungen die Gesamtheit der Forschungsdaten in ein Archivsystem zu überführen, um diese nachhaltig zugänglich zu machen.

Daten und Dateiformate

Die häufigsten Daten während der Grabungen waren analoge Bilder und von Hand ausgefüllte Dokumentation (z. Bsp. wissenschaftliches Tagebuch, Formulare und Listen), auch wenn in den späteren Grabungen mehr und mehr digitale Daten erhoben wurden. Alle analogen Daten wurden in Hinblick auf die bevorstehende Archivierung digitalisiert.

  • geographische Information: GIS-Daten wie z. Bsp. Shapefiles, georeferenzierte Rastergraphik etc.
  • Bilder: Photographische Dokumentation der Funde und Befunde, zeichnerische Aufnahme der Objekte, gescannte handschriftliche Dokumentation etc.
  • digitaler Text: Berichte, Auswertung, Ergebnisse
  • PDF: gescannte handschriftliche Dokumentation
  • Tabellen: Konkordanzlisten, Fundtabellen etc.
  • Datenbank: PostgresSQL-Datenbank

Management und Archivierungsvorbereitung

In Hinblick auf die gute Handhabbarkeit der Daten und einer langfristigen Archivierung wurden bereits in den letzten Jahren alle analogen Datenbestände digitalisiert. Ebenso wurde eine Datenbank angelegt, die die Zuordenbarkeit der Daten zu den einzelnen Grabungen gewährleistet.

Aufgrund der vielfältigen Daten und Datenformate eignete sich das Troia-Projekt gut als Pilotprojekt zur Implementierung von Forschungsdaten in das Forschungsdatenarchiv der Universität Tübingen (FDAT). Als zentrale und dauerhafte Infrastruktureinrichtung bietet FDAT den WissenschaftlerInnen der Universität diverse Dienstleistungen sowie die nötige technische Ausstattung für die Langzeitarchivierung und Nachnutzung von Forschungsdaten an. Dabei richtet sich dieses Repositorium in erster Linie an die Geistes- und Sozialwissenschaften.

Das Datenmanagement des Troia-Projektes umfasste auch eine abschließende Vorbereitung für eine Archivierung der Daten in FDAT. Vor allem die Anreicherung der Daten mit Metadaten und die Konvertierung in archivwürdige Datenformate standen im Vordergrund.

Der Anreicherung mit Metadaten ging eine Datenkategorisierung in prozessierte und administrative Daten durch Projektmitarbeiter voraus. Um eine ausreichende Verschlagwortung zu gewährleisten, wurden die Bezeichner des Projektmetadatenschemas für die Übergabe an FDAT angepasst.

Die Konvertierung der Daten umfasste in diesem Projekt vor allem Bilddateien, die meist im JPG-Format abgespeichert waren und in TIFF umgewandelt werden mussten. Da handschriftliche Aufzeichnungen/Zeichnungen jeder Art durch Scannen auch als Bilddateien vorlagen,  betraf dieser Vorgang einen Großteil der Daten. PDF-Dateien wurden in das archivwürdige PDF/A-Format konvertiert. Daten, die aus dem GIS des Projektes stammen wurden im ASCII-Format, also als einfache Textdateien in ZIP-Paketen (Rastergraphiken, Vektorgraphiken, Shapefiles) abgespeichert.

Archivierung der Daten – ein standardisierter Workflow

Das Tübinger Archivierungssystem FDAT orientiert sich an den Richtlinien für Datenstrukturen (blau markiert) und Prozesse (orange markiert) in einem Archivsystem nach dem Open Archival Information System (ISO 14721:2012) .

Abb.: OAIS-Funktionseinheiten

Workflow des Pilotprojektes

Die Fülle an Daten in Einzelressourcen ließ den angedachten Workflow zur Erstellung von den sogenannten SIPs (submission information package) in diesem Fall jedoch nicht zu, obwohl die Datensätzen im allgemeinen bereits gut vorbereitet waren. Für das Pilotprojekt mussten deshalb andere Routinen erstellt werden, um die gewünschten SIPs zu erzeugen, die dann wiederum mit dem standardisierten Workflow bearbeitbar sind.

Arbeitsschritte

  1. Datenauswahl durch das Projekt
  2. Konvertierung der ausgewählten Daten  in archivwürdige Formate (mit Unterstützung seitens der Archivmitarbeiter)
  3. Vergabe von Metadaten

Arbeitsschritte

  1. Abgabe der Daten an FDAT: Datenaustausch über physikalischen Datenträger
  2. Erstellen eines Metadatenschemas zur Erschließung der Forschungsdaten
  3. Einspielen von Forschungs- und Metadaten ins Archivsystem
  4. Vergabe von PID (handle) beim Ingest im Archivsystem

Nachnutzbarkeit und offene Fragen

Grundsätzlich sollten die Troia-Daten nicht nur in FDAT archiviert und für eine interne Nutzung vorgehalten werden, sondern auch nachnutzbar für andere Nutzer sein. 

Da das Archivsystem jedoch erst im Januar 2017 in Betrieb gegangen ist, sind noch einige Schwierigkeiten – besonders Rechtsaspekte betreffend – nicht restlos geklärt. Dadurch ergibt sich, dass, entgegen der ursprünglichen Absicht alle Datensätze frei zugänglich zu halten, vielfach noch Fragen hinsichtlich des Schutzes von Persönlichkeitsrechten (z. B. bei Bildern, auf denen auch Personen abgebildet sind) offen sind; dadurch ergeben sich aktuell noch viele Restriktionen bei der Nachnutzung der Daten.

FDAT bietet eine Schnittstelle für die automatisierte Übernahme von Metadaten durch Dritte (harvesting). Der Datenexport erfolgt wahlweise in den Formaten Dublin Core oder MARC 21.