Anonymisierung

Die Anonymisierung von personenbezogenen Daten in der Wissenschaft gehört zur guten wissenschaftlichen Praxis. Laut BDSG (Bundesdatenschutzgesetz) § 3, Abs. 6 versteht man unter Anonymisierung jegliche Maßnahmen, die personenbezogene Daten so verändern, dass „die Einzelangaben über persönliche oder sachliche Verhältnisse nicht mehr oder nur mit einem unverhältnismäßig großen Aufwand an Zeit, Kosten und Arbeitskraft einer bestimmten oder bestimmbaren natürlichen Person zugeordnet werden können“.  Zu unterscheiden ist die Anonymisierung von der Pseudonymisierung.

Archiv

Unter einem Archiv ist ein System zu verstehen, welches das organisierte Speichern und Abrufen historischer Daten, Dokumente und Objekte ermöglicht. Die Organisation der Inhalte orientiert sich an den zugrunde liegenden Richtlinien.  Archive werden als Dienstleistung bereitgestellt oder können in eigener Verantwortung angelegt und betrieben werden. Für eine Langzeitarchivierung von über zehn Jahren sind besondere Archivierungssysteme nötig. Eine Sonderform des Archivs ist das Repositorium

Best Practice

Unter dem Begriff Best Practice wird eine bereits erprobte und bewährte Methode zum Ablauf eines Arbeitsprozesses verstanden. Sie ist „eine Technik oder Methodik, die durch Erfahrung und Forschung sich als zuverlässig erwiesen hat, zu einem gewünschten Ergebnis zu führen“. Eine Verpflichtung Best Practice in allen Bereichen zu verwenden, ist eine Verpflichtung zur Verwendung von jeglichem verfügbaren Wissen und Technologien, um eine erfolgreiche Durchführung zu garantieren. Im Bereich des Forschungsdatenmanagements werden mit diesem Begriff die Standards bezeichnet, durch die qualitativ hochwertige Aufzeichungen geschaffen werden können. Hierbei handelt es sich meist um Metadatenstandards.

Creative-Commons-Lizenzen

Um eine maximale Nachnutzbarkeit wissenschaftlicher Forschungsdaten zu gewährleisten, die prinzipiell dem Urheberrecht unterliegen können, kann die Vergabe zusätzlicher Nutzungsrechte z. B. durch eine entsprechende Lizenzierung der Daten in Betracht gezogen werden. Die Verwendung liberaler Lizenzmodelle, insbesondere der weltweit anerkannten Creative-Commons-Lizenzen (CC), ist dabei eine Möglichkeit, Bedingungen für die Nachnutzung der publizierten Forschungsdaten nachvollziehbar festzulegen.

Data-Curation-Profile (Data curation profile)

Ein Data-Curation-Profile beschreibt die ‚Geschichte‘ eines Datensatzes oder einer Datensammlung, d. h.  die Herkunft und der Lebenszyklus eines Datensatzes innerhalb eines Forschungsprojekts.  Entwickelt von den Purdue University Libraries sind das Profile und das zugehörige Toolkit sowohl ein Werkzeug als auch eine eigene Sammlung von Datensätzen. Das Werkzeug besteht aus einem Interviewinstrument mit dessen Vorlage  eine  sehr gründliche ‚Dateneröterung‘ durchgeführt wird, die während des Ausfüllens zum ‚Profil‘ wird. In der Datensammlung kann nach fertiggestellten Data-Curation-Profiles gesucht werden, um z. B. Informationsdienste im Forschungsdatenmanagement bei der Datenkuration  einer spezifischen Disziplin oder auch Forschungsmethode zu erhalten.

Zum Artikel

Dateiformat (Datenart, Dateityp)

Das Dateiformat (manchmal auch Dateiart, Dateityp oder Datenformat genannt) gibt die Syntax und Semantik von Daten innerhalb einer Datei an. Damit ein Computer bzw. eine Computer­anwendung die Daten innerhalb einer Datei interpretieren kann, ist die Kenntnis des Dateiformats notwendig, die durch die Dateiendung kodiert angegeben wird. Die meisten Dateiformate wurden für eine spezielle Verwendung konzipiert und können nach gewissen Kriterien gruppiert werden: 

  • ausführbare Dateien
  • Systemdateien
  • Bibliotheksdateien
  • Nutzerdateien: Bilddateien (Vektorgraphik [SVG, ...], Rastergraphik [JPG, PNG, ...]), Textdateien, Videodateien, etc.
  • etc.

Bei Dateiformaten kann man weiter zwischen proprietären und offenen Formaten unterscheiden.

  • Proprietäre Formate werden zumeist von Softwareherstellern bzw. Plattformen zur Verfügung gestellt und unterliegen lizenz- und/oder patentrechtlichem Schutz bzw. erfordern zur Implementierung herstellerspezifisches Wissen.
  • Offene Formate gewähren uneingeschränkten Zugriff auf ihren Quellcode und sind daher von den Nutzern adaptierbar.

Datenbankschutzrecht

Das Datenbankschutzrecht schützt eine Datenbank für die Dauer von 15 Jahren vor ungenehmigter Nutzung und Vervielfältigung, sofern für ihre Erstellung eine „wesentliche Investition“ von Geld, Zeit, Arbeitskraft usw. notwendig war (Erreichung der sogenannten „geistigen Schöpfungshöhe“). Das deutsche Datenbankschutzrecht orientiert sich an der Richtlinie 96/9/EG des Europäischen Parlaments und des Europäischen  Rates vom 11. März 1996 über den rechtlichen Schutz von Datenbanken. Es bezieht sich nicht auf die Inhalte einer Datenbank, die wieder für sich genommen dem Urheberrecht unterliegen können, sondern auf die systematische oder methodische Zusammenstellung als solche. 

Datenjournal (Data journal)

Grundsätzlich streben Datenjournale die Nachnutzung von Forschungsdaten und deren Anerkennung als wissenschaftliche Leistung an und versuchen, die Transparenz von wissenschaftlichen Methoden und Ergebnissen zu verbessern, gute Daten­management­praktiken zu unterstützen und einen dauerhaften Zugang zum Datensatz zur Verfügung zu stellen. Datenjournale sind Publikationen mit dem Hauptzweck, Datensätze zu veröffentlichen. 

Zum Artikel

Datenlebenszyklus

Das Modell des Datenlebenszyklus veranschaulicht alle Stationen, die Forschungsdaten durchlaufen können, von der Erhebung bis hin zu ihrer Nachnutzung. Je nach Fachdisziplin können die Stationen des Datenlebenszyklus variieren, aber im Allgemeinen werden die folgenden sechs  bzw. sieben Phasen angegeben:

  • (Antragstellung und Vorbereitung)
  • Erstellung/Erhebung
  • Verarbeitung
  • Analyse
  • Archivierung
  • Zugang
  • Nachnutzung.
Zum Artikel

Datenkuration

Datenkuration beschreibt, welche Management­aktivitäten erforderlich sind, um Forschungsdaten langfristig zu pflegen, sodass sie für die Wieder­verwendung und Erhaltung verfügbar sind. Im weitesten Sinne bedeutet Kuration eine Reihe von durchgeführten Aktivitäten und Prozessen, um eine Komponente zu erstellen, zu verwalten, zu halten und zu validieren.  Es ist somit die aktive und laufende Datenverwaltung während des Datenlebenszyklus. Datenkuration ermöglicht sowohl das Suchen, Auffinden und Abrufen der Daten wie auch deren Qualitätserhalt, Mehrwert und Wiederverwendung im Laufe der Zeit.

Datenmanagementplan

Ein Datenmanagementplan (DMP) beschreibt systematisch, wie mit in Projekten erstellten Forschungsdaten umgegangen werden wird. Er dokumentiert die Speicherung, Verzeichnung, Pflege und Verarbeitung der Daten. Der Datenmanagementplan ist wichtig, um Daten für Dritte interpretierbar und nachnutzbar zu machen. Es ist sinnvoll bereits vor Projektbeginn zu klären, welche Verantwortlichkeiten im Umgang mit den Daten vorliegen. Dazu sind bspw. folgende Fragen zu klären:

  • Welche Daten werden im Projekt erzeugt und verwendet?
  • Welche Daten müssen nach Projektende archiviert werden?
  • Wer ist für die Verschlagwortung mit Metadaten zuständig?
  • Wie lange sollen die Daten archiviert werden?
  • Wer darf die Daten nach Projektende nutzen und unter welchen Lizenzbestimmungen?
  • etc.
Zum Artikel

Datenmapping (Mapping)

Datenmapping ist der Prozeß der Überführung von Daten(elementen) von einem Datenmodell zu einem anderen. Dies ist der erste Schritt zur Integration von fremden Informationen in ein eigenes Informationssystem. Es umfaßt die Datentransformation während eines elektronischen Datenaustauschs, für den sehr häufig die Auszeichnungssprache XML und das Datenformat JSON verwendet werden. 


Datenrichtlinie (Research data policy)

Eine Datenrichtlinie (auch Forschungsdatenrichtlinie oder Research data policy) ist ein Dokument, welches vorschreibt, wie an der betreffenden Institution mit Forschungsdaten umgegangen werden soll.

Dies soll dazu beitragen, dass die wichtige Ressource Forschungsdaten effizient gemanagt wird. Es existieren in Deutschland mittlerweile sowohl Datenrichtlinien einzelner Universitäten (institutionelle Policys) als auch interdisziplinäre und disziplinäre Richtlinien. Auch einige wissenschaftliche Journale haben sich eine solche Datenrichtlinie gegeben.

Datensicherung (Backup)

Die Sicherung von Daten wird meistens als ein Backup oder eine Sicherungskopie bezeichnet und dient der Wiederherstellung der ursprünglichen Daten im Falle eines Datenverlusts. Dabei sind verschiedene Verfahren von Datensicherung zu unterscheiden:

  • Das Backup (Komplettsicherung) wird meistens in regelmäßigen Abständen automatisch erstellt und an einem anderen Ort als die Originaldaten aufbewahrt, damit die physische Beschädigung durch Brand und Ähnliches nicht zum vollständigen Datenverlust führt.
  • Durch eine differenzielle Sicherung werden nur die Daten gesichert, die seit der letzten Komplettsicherung geändert wurden und hinzugekommen sind. Es handelt sich also um eine punktuelle Änderung einer Komplettsicherung, die weniger zeitaufwendig und speicherintensiv ist als eine neue Komplettsicherung.
  • Im Gegensatz dazu werden bei einer inkrementellen Sicherung nur die Dateien oder Teile von Dateien gespeichert, die seit der letzten inkrementellen Sicherung geändert wurden und hinzugekommen sind. Diese Form der Sicherung hat den geringsten Speicherbedarf. Bei einer Wiederherstellung muss kettenartig und aufwendig auf mehrere Teilsicherungen zurückgegriffen werden. 
  • Mit einem Speicherabbild (image backup) wird ein kompletter Datenträger (Festplatte, Netzlaufwerk etc.) gesichert, sodass außer den Daten auch alle Nutzereinstellungen und Programme sowie ggf. das Betriebssytem mitgesichert werden. Eine Wiederherstellung einer solchen Sicherung kann den Totalausfall eines Computers rückgängig machen.

Datenschutz

Unter Datenschutz werden technische und organisatorische Maßnahmen gegen den Missbrauch von personenbezogenen Daten verstanden. Ein Missbrauch liegt vor, wenn solche Daten unbefugt erhoben, verarbeitet oder genutzt werden. Geregelt ist der Datenschutz in der Richtlinie 95/46/EG (Datenschutzrichtlinie), im Bundesdatenschutzgesetz und in den entsprechenden Gesetzen auf Ebene der Bundesländer, z. B. im  Landesdatenschutzgesetz des Landes Baden-Württemberg.

In der Forschung fallen personenbezogene Daten insbesondere in medizinischen und sozialwissenschaftlichen Studien an. Die Verschlüsselung und Aufbewahrung an besonders gesicherten Orten ist hier zwingend erforderlich. Durch nachträgliche Pseudonymisierung oder Anonymisierung kann der Personenbezug aber soweit aufgehoben werden, dass sogar eine Publikation dieser Daten rechtlich möglich wird.

Datenzentrum

Ein Datenzentrum ist ein zentrales Repositorium, welches für eine bestimmte Wissens- und/oder Gedächtnisinstitution die Speicherung, Verwaltung und Verbreitung von Daten und Informationen übernimmt. Datenzentren für Forschungsdaten sind zumeist aus unabhängigen wissenschaftlichen Initiativen hervorgegangen.

Digitalisat

Ein Digitalisat ist das Endprodukt eine Digitalisierung. Während der Digitalisierung wird ein analoger Gegenstand (Buch, Handschrift, Bild, Plastik, etc.) in digitale Werte überführt, um diesen elektronisch zu speichern. Gegenüber dem analogen Gegenstand ist die einfache Verteilung und Nutzung von Forschungsdaten als Digitalisat und die Möglichkeit einer maschinellen Verarbeitung von Vorteil. Außerdem verhindert die Arbeit mit Digitallisaten die Verfälschung bzw. Beschädigung des Originals durch weitere analoge Verarbeitung.

DINI-Zertifikat

Das DINI-Zertifikat (Deutsche Initiative für Netzwerkinformationen) ist ein weithin anerkanntes Gütesiegel für Repositorien. Die Vergabe des DINI-Zertifikat garantiert eine hohe Qualität des Dienstes (Repositoriums) für Autoren, Nutzer, Geldgeber und der Leitung der zertifizierten Einrichtung. Es signalisiert, dass festgelegte Maßstäbe, Richtlinien und Empfehlungen (Best Practices) der Open-Access-Bewegung umgesetzt wurden. Mit der Version 2013 des DINI-Zertifikats können sich auch Hosting-Anbieter bestätigen lassen, dass bestimmte Mindestanforderungen aus dem Kriterienkatalog grundsätzlich für alle von ihnen betreuten Dienste erfüllt sind. Diese Kriterien werden für den entsprechenden Hosting-Anbieter als DINI-ready markiert und müssen später beim Zertifizierungsprozess nicht mehr gesondert vom Dienstanbieter ausgewiesen werden.

Digital object identifier (DOI)

Ein Digital Object Identifier (DOI) ist eines der gebräuchlichsten Systeme zur persistenten Identifikation digitaler Dokumente. Ein DOI bleibt über die gesamte Lebensdauer eines bezeichneten Objekts gleich. Das DOI-System wird von der International DOI Foundation gemanagt. Ein weiteres bekanntes System zur persistenten Identifikation ist der Uniform Resource Name (URN).

Forschungsdaten

Daten, die während wissenschaftlicher Tätigkeit (z. B. durch Messungen, Befragungen, Quellenarbeit) entstehen, auf Grundlage derer wissenschaftlich gearbeitet werden kann (z. B. Digitalisate) oder das Ergebnis wissenschaftlicher Arbeit dokumentieren, werden Forschungsdaten genannt.

Daraus ergibt sich ein disziplin- und projektspezifisches Verständnis von Forschungsdaten mit unterschiedlichen Anforderungen an die Aufbereitung, Verarbeitung und Verwaltung der Daten: dem sogenannten Forschungsdatenmanagement. Bisweilen wird auch zwischen Forschungsprimärdaten bzw. Primärdaten und Metadaten unterschieden, wobei letztere je nach Fachbereich oft nicht als Forschungsdaten im engeren Sinne gelten. 

Forschungsdatenmanagement

Unter Forschungsdatenmanagement versteht man den Prozess der  Transformation, Selektion und Speicherung von Forschungsdaten mit dem Ziel, diese langfristig und unabhängig vom Datenerzeuger zugänglich, nachnutzbar und nachprüfbar zu halten. Es können dazu an  allen Punkten des Datenlebenszyklus strukturierte Maßnahmen ergriffen werden, um die wissenschaftliche  Aussagekraft von Forschungsdaten zu erhalten, deren Zugänglichkeit  durch Dritte für Auswertung und Analyse zu bewahren und die Nachweiskette zu sichern.

Forschungsprimärdaten

Forschungsprimärdaten sind erhobene Rohdaten, die weder bearbeitet noch kommentiert bzw. mit Metadaten versehen wurden, die aber die Grundlage für die wissenschaftliche Beschäftigung mit einem Gegenstand darstellen. Die Unterscheidung zwischen Forschungsdaten und Forschungsprimärdaten kann bisweilen nur theoretisch vorgenommen werden, weil letztere nie ohne minimale Metadaten veröffentlicht werden bzw. sonst unverständlich blieben. So werden Digitalisate von deren Inhabern, bspw. wissenschaftliche Bibliotheken und Sammlungen, nie ohne Hintergrundinformationen, wie Provenienz und Ähnlichem veröffentlicht.

Gute wissenschaftliche Praxis

Die Regeln der guten wissenschaftlichen Praxis dienen als Orientierung im Rahmen wissenschaftlicher Arbeitsprozesse. In Deutschland sind diese Regeln zum Beispiel in Empfehlung 7 der Deutschen Forschungsgemeinschaft (DFG) zu finden. Hier heißt es, dass „Primärdaten als Grundlagen für Veröffentlichungen auf haltbaren und gesicherten Trägern in der Institution, wo sie entstanden sind, zehn Jahre lang aufbewahrt werden“ sollen. Damit soll gewährleistet sein, dass Forschungsergebnisse überprüfbar bleiben. Eine Publikation der Daten fördert zudem die Nachnutzbarkeit der Forschungsdaten.

Harvesting

Als Harvesting bezeichnet man das automatische ‚Einsammeln‘ von Daten bzw. von Metadaten aus Archiven und Repositorien über sogenannte Data-Provider (wie bspw. BASE, OAIster oder Scientific Commons).

Für diesen Vorgang werden sogenannte Harvesting-Protokolle verwendet, die die Daten automatisiert abgreifen. Eines der am häufigsten verwendeten Harvesting-Protokolle ist das Open Archives Initiative Protocol for Metadata Harvesting (OAI-PMH), welches auf XML basiert. Da eine Vielzahl sehr unterschiedlicher Metadatenstandards existieren, hat man sich für ein Harvesting per OAI-PMH für das Dublin-Core-Modell als kleinsten gemeinsamen Nenner für die Metadaten­repräsentation entschieden.

Ingest

Als Ingest (Übernahme) bezeichnet man die Phase im Datenlebenszyklus, in welchem Forschungsdaten in ein Archiv oder Repositorium aufgenommen werden. Zunächst erfolgt eine Bestätigung, dass das Datenpaket erhalten wurde und es muss entschieden werden, welche der Daten in welcher Form übernommen werden.

Je nach dem zu übernehmenden Inhalt, können die daran anschließenden Workflows variieren. Die Daten werden jedoch zumeist Qualitätskontrollen (bspw. Überprüfung der Metadaten oder der Vertraulichkeit) und verschiedenen Aufbereitungsprozessen (Metadatenanreicherung etc.) unterzogen.

JavaScript Object Notation (JSON)

JSON ist ein kompaktes, leicht lesbares und softwareunabhängiges Datenformat für den Datenaustausch zwischen Anwendungen. Es wird insbesondere bei Webanwendungen zur Übertragung von strukturierten Daten eingesetzt, um diese in andere Systeme bzw. Anwendungen zu integrieren. Für die die gleiche Information benötigt JSON bedeutend weniger Speicherplatz als ein XML, ist aber dafür nicht so vielseitig einsetzbar.

Langzeitarchivierung

Das Ziel der Langzeitarchivierung ist es, den Zugang zu archivierten Daten über einen langen Zeitraum zu ermöglichen. Die begrenzte Funktionsdauer von Speichermedien, der technische Wandel und Sicherheitsrisiken stehen diesem Ziel entgegen, weshalb eine umfangreiche und vorausschauende Planung erforderlich ist. Dabei gilt es, einem Datenverlust vorzubeugen, die authentische Datenwiedergabe langfristig zu ermöglichen und ein geeignetes Archivierungssystem (Metadaten, Struktur) zu verwenden. Im Zuge der Planung werden die verschiedenen Aspekte der IT-Infrastruktur, wie Hard- und Software berücksichtigt. Zusätzlich sollten gesellschaftliche Entwicklungen mit in die Planung einbezogen werden.

Zum Artikel

Metadaten

Metadaten sind an sich unabhängige Daten, die strukturierte Informationen über andere Daten bzw. Ressourcen und deren Merkmale enthalten. Sie werden unabhängig von oder zusammen mit den Daten, die sie näher beschreiben, abgespeichert. Eine genaue Definition von Metadaten ist schwierig, weil der Begriff zum einen in unterschiedlichen Kontexten verwendet wird, und zum anderen die Unterscheidung zwischen Daten und Metadaten je nach Blickwinkel unterschiedlich ausfällt.

Meist unterscheidet man zwischen fachlichen und technischen bzw. administrative Metadaten. Während letztgenannte einen klaren Metadatenstatus haben, können fachlich Metadaten bisweilen auch als Forschungsdaten begriffen werden.

Um die Wirksamkeit von Metadaten zu erhöhen, ist eine Standardisierung der Beschreibung unbedingt erforderlich. Durch einen Metadatenstandard können Metadaten aus unterschiedlichen Quellen miteinander verknüpft und gemeinsam bearbeitet werden.

Zum Artikel

Metadatenstandard

Um die Interoperabilität , d. h. die Verknüpfung und gemeinsame Bearbeitung, von Metadaten zu gewährleisten, wurden für bestimmte Zwecke Metadatenstandards geschaffen. Sie dienen einer inhaltlich als auch strukturell gleichförmigen Beschreibung von ähnlichen Daten. Ein Metadatenstandard kann oft durch ein sogenanntes Mapping in einen anderen Metadatenstandard überführt werden.

Zum Artikel

Open Access

Unter Open Access wird ein kostenloser und möglichst barrierefreier Zugang zu digitalen wissenschaftlichen Inhalten verstanden. Den Nutzern werden in der Regel umfangreiche Nutzungsrechte und einfache Zugangswege ermöglicht. Die Urheberschaft verbleibt dabei in der Hand des Urhebers. Durch Open Access können wissenschaftliche Informationen maximal verbreitet, genutzt und weiterverarbeitet werden. Open Access stellt eine wichtige Errungenschaft der Open-Science-Bewegung dar.

Bei der Veröffentlichung von wissenschaftlichen Inhalten werden zwei Wege unterschieden:

  • Die Veröffentlichung von wissenschaftlichen Inhalten in einem Open-Access-Medium, wird als „Goldener Weg“ bezeichnet.
  • Die Veröffentlichung einer kostenpflichtigen und einer parallelen kostenfreien Version, wird „Grüner Weg“ genannt.

Zum Artikel

Persistenter Identifikator (Persistent identifier)

Als Persistent Identifier versteht man im Forschungsdatenmanagement einen dauerhaften (persistenten), digitalen Identifikator, bestehend aus Ziffern und/oder alphanumerischen Zeichen, welcher einem Datensatz (oder einem anderen digitalen Objekt) zugeordnet wird und direkt auf diesen verweist.

Häufig verwendete Identifikator-Systeme sind DOI (Digital Object Identifiers) und URN (Uniform Resource Names). Im Gegensatz zu anderen seriellen Identifikatoren (bspw. URL-Adressen) verweist ein Persistent Identifier auf das Objekt selbst und nicht auf seinen Standort im Internet. Ändert sich der Standort eines mit einem Persistent Identifier assoziierten digitalen Objekts, so bleibt der Identifikator derselbe. Es muss lediglich in der Identifikator-Datenbank der URL-Standort geändert oder ergänzt werden. So wird sichergestellt, dass ein Datensatz dauerhaft auffindbar, abrufbar und zitierbar bleibt.

zum Artikel

Personenbezogene Daten

Das Bundesdatenschutzgesetz (BDSG) definiert personenbezogene Daten als „Einzelangaben über persönliche oder sachliche Verhältnisse einer bestimmten oder bestimmbaren natürlichen Person (Betroffener)“. Daten können dann als personenbezogen gelten, wenn sie eindeutig einer bestimmten natürlichen Person zugeordnet werden können. Typische Beispiele sind Name, Beruf, Körpergröße oder Nationalität der Person. Das BDSG schreibt zudem vor, dass Angaben über ethnische Herkunft, politische Meinung, religiöse oder philosophische Überzeugung, Gewerkschaftszugehörigkeit, Gesundheit und Sexualleben eine besonders schutzwürdige Art von personenbezogenen Daten darstellen und daher strengeren Schutzauflagen unterliegen.

Pseudonymisierung

Im Gegensatz zur Anonymisierung werden bei der Pseudonymisierung lediglich bestimmte Identifikationsmerkmale, wie beispielsweise der Name, durch ein Pseudonym (ein Buchstaben- und/oder Zahlencode) ersetzt werden, um so die Bestimmung der betroffenen Personen zu erschweren oder auszuschließen (BDSG § 3, Abs. 6a). Während der Dauer einer wissenschaftlichen Studie ist es häufig unvermeidlich personenbezogene Daten und Code in einer Referenzliste und die Studiendaten in einer davon getrennten Datenbank zu führen, also eine Pseudonymisierung von Daten durchzuführen. Eine Anonymisierung der Daten erreicht man, indem die Referenzliste, beispielsweise nach Abschluss der Studie, gelöscht wird, sodass kein Bezug zwischen einzelnen Personen und den Studienergebnissen mehr hergestellt werden kann.

Rechte an Daten

Rechte an bzw. über Daten können aus zwei Blickwinkeln definiert werden. Aus Sicht der Forschenden sind dies Entscheidungsbefugnisse über die Daten, die sich aus der Erzeugung ergeben. Aus Sicht von Nutzerinnen und Nutzern handelt es sich um die Rechte, welche bei Nachnutzung von Daten zu beachten sind. Rechte können in Form von Lizenzen und zugehörigen Lizenztexten sowie Vereinbarungen in rechtlich verbindlicher Form festgelegt und kommuniziert werden.

Für die Nachnutzung von Daten  gelten mindestens die Regeln der guten wissenschaftlichen Praxis, d. h. im Wesentlichen die Pflicht, Urheber korrekt zu zitieren (Urheberrecht). Mit Vergabe der Creative-Commons-Lizenz CC-BY lässt sich diese Regel durch den Datenerzeuger auch lizenzrechtlich weitgehend nachbilden. Datenschutz-, patent- und persönlichkeitsrechtliche Einschränkungen können die Nachnutzung erschweren. 

Repositorium

Ein Repositorium kann als eine spezielle Form des Archivs betrachtet werden. Im digitalen Zeitalter wird unter dem Begriff Repositorium ein verwalteter Speicherort für digitale Objekte verstanden. Da Repositorien meistens öffentlich oder einem eingeschränkten Nutzerkreis zugänglich sind, ist dieser Begriff eng mit  Open Access verknüpft. 

Zum Artikel

Richtlinien, Regeln, Policys

Richtlinien (engl. policies) sollen für alle Mitarbeiter einer Institution festschreiben, welche Verfahren beim Forschungsdatenmanagement eingesetzt werden sollen und wie mit Forschungsdaten umzugehen ist. In Deutschland gibt es fast keine Forschungsdaten-Policys (Datenrichtlinien) mit detaillierten Vorgaben sondern zumeist nur grundlegende Eigenverpflichtungen etwa zu den Prinzipien des Open Access.

Schöpfungshöhe

Bei der Schaffung eines Objektes bzw. Projektes kann die Persönlichkeit des Urhebers im Ergebnis zum Ausdruck kommen. Das Ausmaß davon definiert die Schöpfungshöhe (auch Gesaltungshöhe oder Werkhöhe), welche für die Schutzwürdigkeit nach deutschen Urheberrecht entscheidend ist. Dabei kommt es wesentlich darauf an, dass kein äußerer Zwang (Zielstellung, Funktionalität, Objektivität usw.), sondern der Urheber das Ergebnis individuell gestaltet. Deswegen sind Forschungsdaten fast nie vom Urheberrecht geschützt. Erreicht ein wahrnehmbares Schaffen eines Menschen die nötige Schöpfungshöhe, spricht man von einem Werk.

Semantisches Web (Semantic Web)

Als Semantisches Web werden die Bemühungen bezeichnet, das World Wide Web zu systematisieren, damit der maschinelle Austausch von Computern leichter und einfacher verwertbar wird. Mit zusätzlichen Informationen (Metadaten) werden zentrale Begriffe einer Webseite, die dort unstrukturiert vorkommen, kontextualisiert, sodass dadurch bspw. klar wird, ob es sich bei ‚Berlin‘ um die Hauptstadt Deutschlands, eine andere Stadt oder einen Namen handelt. Um den Maschinen den Kontext eines Begriffes zu vermitteln, wird auf maschinenlesbare Metadatenstandards zurückgegriffen. Die angestrebte Vernetzung von Information im Web durch die Kontextualisierung steht wegen ihrer Komplexität und des Arbeitsumfanges bisher erst am Anfang, wird die Durchsuchbarkeit des Webs aber sicherlich nachhaltig verbessern.

Urheberrecht

In Deutschland gilt das deutsche Urheberrechtsgesetz für die Nutzung von literarischen, künstlerischen und wissenschaftlichen Werken, die die dort genannten Schutzvoraussetzungen erfüllen. Sofern den Nutzern dieser Werke nicht weitere Nutzungsrechte durch eine weiterführende Lizenz (z. B. durch eine Creative Commons Lizenz) eingeräumt werden, ist die Nachnutzung der Werke nur im Rahmen der restriktiven Schrankenregelungen des deutschen Urheberrechtsgesetzes möglich.

Ob Forschungsdaten dem Schutz des Urheberrechtsgesetzes unterliegen oder nicht ist davon abhängig, ob die Anforderungen an die geistige Schöpfungshöhe oder die Voraussetzungen des Datenbankschutzrechts erfüllt werden. Da das Vorliegen der Voraussetzungen im Einzelfall geprüft werden muss, ist im Zweifelsfall die Beratung durch einen Fachanwalt empfehlenswert.

Um eine maximale Nachnutzbarkeit wissenschaftlicher Forschungsdaten zu gewährleisten, die prinzipiell dem Urheberrechtsgesetz unterliegen können, sollte die Vergabe von zusätzlichen Nutzungsrechten z. B. durch eine entsprechende Lizenzierung der Daten in Betracht gezogen werden. Die Vergabe solcher Lizenzen führt meist zu einer höheren Nutzung der Daten in der wissenschaftlichen Forschung und kann so zu einem Reputationsgewinn des Wissenschaftlers, auch über die Grenzen der jeweiligen Fachcommunity hinaus, beitragen.

Zum Artikel

URN (Uniform Resource Name)

URN ist die Bezeichnung eines Identifizierungs- und Adressierungssystems und wird ähnlich wie ein DOI zur persistenten Identifikation digitaler Objekte (Netzpublikationen, Datensätze u. a.) verwendet. Er ist vor allem im deutschsprachigen Raum sehr verbreitet, da die deutsche Nationalbibliothek URNs zur persistenten Identifikation und Adressierung anwendet, administriert und auflöst.

Virtuelle Forschungsumgebungen (VFU)

Virtuelle Forschungsumgebungen (VFU) sind Softwarelösungen bzw. Plattformen, die die ortsunabhängige Zusammenarbeit zwischen WissenschaftlerInnen ermöglichen. Eine VFU ist vor allem ein anwendungsorientierter Dienst, den eine Infrastruktureinrichtung (z. Bsp. Rechenzentrum, Bibliothek) für einen bestimmten Forschungsverbund oder eine bestimmte Forschungscommunity erbringt. Die Softwarelösung vereint vor allem fachspezifische Tools, Toolsammlungen und Arbeitsumgebungen. Überfachliche Anwendungen bleiben ein bisher nicht erreichtes Fernziel.

XML (Extensible Markup Language)

XML ist eine Auszeichnungssprache zur Speicherung von hierarchisch strukturierten Informationen als einfache Textdatei. Es wird hauptsächlich für den plattformunabhängigen Datenaustausch zwischen Anwendungen bzw. Computern benutzt. Die Kodierung ist sowohl maschinen- als auch menschenlesbar. Es besteht die Möglichkeit, den Inhalt eines XML-Dokuments auf Validität (Gültigkeit) zu überprüfen, wenn zu den allgemeinen, formalen Regeln weitere inhaltliche Regeln in einer externen Datei definiert worden sind. Dadurch kann die Gestalt und der Inhalt der kodierten Informationen sehr genau beschrieben werden. Mithilfe von XSL (XML Stylesheet Language) ist es möglich, die gespeichert Informationen zu interpretieren und zur Visualisierung in andere Dateiformate umzuwandeln.