E. Böker / CC BY 4.0

Metadaten und Metadatenstandards

Beschreiben hilft verstehen

Die Publikation von Forschungsdaten in einer auffind- und nachvollziehbaren Art und Weise befördert entscheidend die Qualität des Datensatzes und das Potential der Nachnutzung. Daten sind in der Regel nicht selbsterklärend, sondern benötigen zusätzliche Informationen, sogenannte Metadaten. Gut durchdachte und dokumentierte Metadaten spielen daher eine zentrale Rolle für das Finden, Verstehen und Nachnutzen von Forschungsdaten.

Je strukturierter die Informationen vorliegen, umso einfacher sind sie nicht nur für Menschen, sondern auch für Maschinen lesbar und verarbeitbar. Eine Standardisierung der verwendeten Felder und Werte hilft dabei, verschiedene Datensätze miteinander in Beziehung zu setzen und auch über Institutions-, Sprach- und Disziplingrenzen hinweg auffindbar und verständlich zu machen.

Welche Metadaten sind zu unterscheiden?

Metadaten im Forschungskontext  enthalten strukturierte Informationen über Forschungsergebnisse, zum Beispiel Datensätze oder auch Code. Sie werden mit den beschreibenden Daten gemeinsam abgespeichert oder verknüpft.

Verschiedene Arten von Metadaten erfüllen dabei unterschiedliche Funktionen:

  • Bibliografische Metadaten wie Titel, Autoren, Beschreibung oder Keywords ermöglichen die Zitation von Daten und Code und helfen bei der Auffindbarkeit und thematischen Eingrenzung.
  • Administrative Metadaten zu Dateitypen, Standorten, Zugriffsrechten und Lizenzen helfen bei der Verwaltung und langfristigen Erhaltung der Daten.
  • Prozessmetadaten beschreiben die Schritte und Aktionen mit ihren verwendeten Methoden und Hilfsmitteln, die zur Entstehung und Verarbeitung der Daten angewendet wurden.
  • Inhaltsbeschreibende bzw. deskriptive Metadaten können je nach Disziplin sehr unterschiedlich aufgebaut sein und geben zusätzliche Informationen zu Inhalt und Entstehung der Daten.

Während sich bibliografische und administrative Metadaten disziplinübergreifend standardisieren lassen, haben Metadaten zum Prozess und Inhalt von Forschungsergebnissen oft einen sehr fachspezifischen Aufbau und Inhalt. Gerade diese fachspezifischen Informationen sind oft entscheidend für die Auffindbarkeit und Nachvollziehbarkeit von Forschungsdaten. Entsprechend gibt es viele verschiedene Metadatenstandards, die eine Struktur für die relevanten Informationen in einem Bereich oder einer Fachdisziplin vorgeben.

Metadatenstandards – Für jeden Zweck den richtigen wählen

Ein weit verbreiteter Standard für die bibliographische Beschreibung von Forschungsdaten ist das Metadatenschema zur Registrierung von DOIs (digital object identifiers) von DataCite. Dieses gibt vor, welche Information zu einem Datensatzes verpflichtend angegeben werden müssen (z. B. Autor, Titel), welche Angaben empfohlen werden (z. B. Fachbereich, Beschreibung) und welche optional sind (z. B. Finanzierung, Nutzungsrechte). Diese und weitere Metadaten werden im XML-Format für die interoperable Nutzung zur Verfügung gestellt.

Ein Standard für administrative Metadaten in der Langzeitarchivierung ist PREMIS. Mit Hilfe dieses Standards können Objekte in Beziehung zu Akteuren, Ereignissen und Rechten beschrieben werden.

METS (Metadata Encoding & Transmission Standard) ist dagegen ein Beispiel für ein Container-Standard, der eine Struktur von sieben Abschnitten vorgibt (Kopfteil, Erschließungsangaben, Verwaltungsangaben, Dateiabschnitt, Strukturbeschreibung, Strukturverknüpfung und Verhalten), für deren Inhalt dann jeweils unterschiedliche Metadatenstandards gewählt werden können.

Für fachspezifische Metadaten existiert eine Vielzahl von Standards. Eine Übersicht über existierende Standards geben der Metadata Standards Catalog der RDA und die Seite der RDA Metadata Standards Directory Working GroupFairSharing.org oder DDC (Digital Curation Centre).

Während XML-basierte Metadatenschemata eine Struktur vorgeben, also festlegen welche Informationen in welchem Format angegeben werden müssen, sollen und können, unterstützen Vokabulare und Terminologien bei der Standardisierung der Inhalte. Dies reicht von kontrollierten Wortlisten, die fehlerhafte oder unterschiedliche Schreibweisen von Konzepten vereinheitlichen, über Taxonomien und Thesauri, die Über- und Unterbegriffe wie auch Synonyme zu Konzepten enthalten, bis hin zu Ontologien, die Eigenschaften und Relationen zwischen Konzepten modellieren. Einen Überblick über bestehende Terminologien gibt das Basic Register of Thesauri, Ontologies and Classifications BARTOC. Terminologie-Services ermöglichen - oft fachspezifisch - die Suche nach Terminologie-Termen.

Weitere Beispiele für Ontologien und Vokabularien: