Forschungsdaten und die Blockchain

Funktionsweise und potentielle Anwendungsfälle im Bereich FDM

Schematische Darstellung eines dezentralen P2P-Netzwerks

Was ist die Blockchain?

Seit einigen Jahren macht auch in akademischen Kreisen das Konzept der Blockchain die Runde. In diesem Beitrag wird das Thema aus der Perspektive potentieller wissenschaftlicher Anwender/innen beleuchtet.

Die Blockchain ist - zumindest nach gegenwärtigem Stand der Technik und Annahmen über zukünftige Entwicklungen -  eine unzerstörbare, nicht manipulierbare, digitale und verteilte Datenbank. Sie funktioniert, anders als andere Datenbanken, über ein sogenanntes P2P (peer-to-peer) oder User-to-User-Netzwerk. Dieses Netzwerk besteht aus beliebig vielen Computern, genannt Nodes, die alle zeitgleich über eine identische Kopie der Daten verfügen. Die Organisation als dezentrales Netzwerk ermöglicht die Verteilung und Lagerung von digitalen Daten, ohne einen Angriffspunkt, einen sogenannten “Single Point of Failure”, für Hack- und Manipulationsversuche zu bieten. Dies liegt darin begründet, dass die Blocks der Blockchain nicht ohne Änderung auf allen Nodes und damit nicht ohne immensen Rechenaufwand korrumpiert werden können. [1]

Die erste praktische Applikation der Blockchain-Technologie wurde 2008 von einem anonymen Softwaredesigner mit dem Decknamen Satoshi Nakamoto entwickelt. Sie hieß wie die Kryptowährung, deren Transaktionen sie sicherer gestalten sollte -  Bitcoin - und fungiert seitdem ohne größere Probleme als dezentrales, unhackbares, digitales Kassenbuch für die gleichnamige Währung.

Die Anwendung auf die Sicherung von digitalen Währungen ist jedoch bei weitem nicht die einzige denkbare Einsatzmöglichkeit. Um jedoch zu verstehen, welche Rolle die Blockchain potentiell im Bereich des Forschungsdatenmanagements spielen könnte, muss man zunächst verstehen, wie diese revolutionäre Technologie funktioniert.


Schematische Darstellung der miteinander verketteten Datenblöcke der Blockchain

Wie funktioniert die Blockchain?

Die der Blockchain zugrunde liegende Technologie basiert im Wesentlichen auf drei Dingen: die verteilte Lagerung von Daten in einem P2P-Netzwerk, das namensgebende Prinzip der miteinander verketteten Datenblöcke (“blockchain”) und die Nutzung von Hash-Funktionen zur Integritätsbestimmung von Daten sowie kryptographischer Verfahren zur Signierung von Informationen. Sollen neue Daten (bspw. finanzielle Transaktionen) auf der Blockchain gespeichert werden, so werden diese gemeinsam mit anderen Daten in einem neuen “Block” ans Ende der Blockchain angefügt und mit den vorherigen Blöcken über eine Reihe von Prüfzahlen, sogenannten Hashs verkettet. Die Blockchain checkt und aktualisiert sich in regelmäßigen Zeitabständen durch eine Verbindung mit den verbundenen Nodes selbst, so dass jeder durch einen Client mit der Blockchain verbundene Knotenrechner (“Nodes”) regelmäßig eine aktualisierte und durch den Client validierte Kopie der Blockchain erhält. [2]

Während der Zeitspanne zwischen den Synchronisationen versuchen alle Nodes aus den Prüfzahlen aller gesammelten Transaktionen, dem Zeitstempel des aktuellen Blocks und der Hash des letzten Blocks durch das Errechnen einer Unbekannten (genannt “nonce”) eine neue Hash für den aktuell hinzuzufügenden Block zu generieren. Bei der Bitcoin-Blockchain erhält der siegreiche Rechner dafür eine gewisse Anzahl an Bitcoins gutgeschrieben (dies bezeichnet man auch als “mining”), während die unterlegenen Rechner die errechnete Nonce prüfen. Stimmt die Nonce, wird der neue Block mit dem vorherigen Block verkettet, weil dessen Hash in die Berechnung des eigenen Hashs eingeflossen ist. Diesen Vorgang nennt man Proof of Work. Es wird dadurch nicht nur unmöglich einzelne Blöcke zu manipulieren, sondern auch Blöcke an einer anderen Stelle als am Ende der Blockchain einzufügen, ohne die Verkettung zu unterbrechen.

Das meistgenutzte GUI für die Blockchains für virtuelle Währungen sind sogenannte Wallet-Apps, welche genutzt werden, um Dinge mit Bitcoin (oder anderen Kryptowährungen) zu kaufen oder Bitcoin zu lagern. Es ist jedoch durchaus denkbar GUIs für anders gelagerte Zwecke zu entwickeln. Die folgenden Abschnitte bieten einen Überblick darüber, welche potentiellen Anwendungen besonders interessant für den Bereich des Forschungsdatenmanagements sein könnten.


Die Blockchain als Technologie zur Sicherung der Provenienz und Datenintegrität

Eine der potentiellen Anwendungsmöglichkeiten der Blockchain-Technologie auf das Forschungsdatenmanagement ist die Sicherung der Herkunft von Forschungsdaten sowie deren Integrität.

So gab es bereits mehrfach Fälle, in denen mit wissenschaftlichen Publikationen verlinkte Daten nicht oder nur teilweise mit den ursprünglich mit dem Paper veröffentlichten Daten überein stimmten. Dies kann durch das Versehen der Daten mit einem Hash und dem Speichern der resultierenden Hash-Funktion auf der Blockchain vermieden werden, da dies jeglichen Manipulationsversuch bemerkbar macht. Dieses Vorgehen würde das Fälschen von Daten erheblich erschweren und im Gegenzug die Replizierbarkeit deutlich verbessern. Mit dem gleichen Verfahren könnte die Datenprovenienz in strittigen Fällen eindeutig und zweifelsfrei nachgewiesen werden.

Ein Nachweis der Provenienz von Forschungsdaten könnte sich dabei z.B. auf ein Repositorium stützen, in dem die Forschungsdaten selbst samt ihrer Beschreibungen abgelegt werden und die einen Hash-Wert für die abgelegten Daten eindeutig erzeugen, der dann als eindeutiges Identifikationsmerkmal verwendet werden kann. Dieser Hash-Wert kann dann der Blockchain in signierter Form angefügt werden, um die Integrität des Datensatzes zu garantieren. Falls es zu einer Änderung der Ausgangsdaten im Repositorium käme, würde der signierte Hashwert in der Blockchain von dem Wert im Repositorium abweichen, so dass eine Manipulation oder ein technisches Versagen des Repositoriums nachgewiesen wäre. Die Verwendung von Hash-Werten statt der Forschungsdaten selbst lässt sich durch die potentielle Größe erklären: die Forschungsdaten können - abhängig von Disziplin, Forschungsgegenstand, Datentyp, etc. - extrem groß und damit in einem P2P-System nicht mehr beherrschbar werden, aber ein Hash-Wert hat eine konstante, relativ kleine Größe und ist somit auch in verteilten Systemen verwaltbar. [3]

Die Verwendung von solchen Forschungsdatenrepositorien macht dabei allerdings eine wesentliche Funktion der Blockchain - die Sicherstellung von Integrität in nicht vertrauenswürdigen P2P Netzen - obsolet, da diese Forschungsdatenrepositorien selbst vertrauenswürdig sein müssen, um die Ursprungsdaten ablegen zu können. Allerdings könnte die Technologie dazu verwendet werden, um die Integrität der Daten innerhalb der Repositorien selbst regelmäßig zu verifizieren, etwa indem die Hash-Werte der abgelegten Daten einer eigenen Blockchain hinzugefügt werden, so dass selbst im Falle eines technischen Versagens der genaue Zeitpunkt der Veränderung nachvollziehbar ist. Die Komplexität dieses Verfahrens dürfte dabei aber größer sein als herkömmliche Datensicherungskonzepte.

Die Blockchain als Technologie zur Datenspeicherung

Das Speichern von Daten auf einem dezentralen Netzwerk wie der Blockchain bringt gewisse Vorteile wie Robustheit, Transparenz und Datensicherheit mit sich. Ein grundsätzliches Problem ist jedoch der enorme Energiebedarf von Blockchain-Node-Netzwerken. Da für das Anfügen jedes neuen Datenblocks komplexe Kalkulationen durchzuführen sind, wird konstant ein relativ hohes Maß an Rechenleistung und damit an Energie benötigt. Blockchain-Systeme unterscheiden sich daher auch durch das verwendete Hashing-Verfahren und die Art der Signierung. Das Blockchain-System Ethereum setzt z.B. auf einen anderen Hash-Algorithmus, welcher die Rechenvorgänge auf eine größere Anzahl kleinerer Rechner verteilt als der Algorithmus des Bitcoin-Systems und damit den Energieverbrauch reduziert. Auch gibt es Ansätze, den Proof of Work in einer nicht öffentlichen Blockchain weniger rechenintensiv zu gestalten, da sich die Mitglieder des Netzwerks zu einem gewissen Grad vertrauen können. Dies könnte für eine für die Speicherung von Forschungsdaten verwendete Blockchain eine sinnvolle Lösung des Energieproblems darstellen.

Blockchain für Smart Contracts im Bereich der Datenüberlassung

Ein häufiges Problem bei der Verwaltung von Forschungsdaten besteht darin, dass Rechte verschiedener Partner in die Forschungsdaten einfließen. Datenproduzenten geben ihre Daten an Repositorien weiter, teilweise unter freien Lizenzen, manchmal aus unterschiedlichen Gründen mit Nutzungseinschränkungen. Nutzungseinschränkungen sind dabei aufwendig zu verwalten und nachzuhalten, z.B. wenn einer Nutzungsvereinbarung zugestimmt oder eine Lizenz erworben werden muss, bevor Zugang zu einer Ressource gewährt werden kann. In der Praxis wird dies derzeit so durchgeführt, dass eine Einrichtung die Zustimmung oder den Erwerb verzeichnet und dann Nutzenden Zugang ermöglicht, zum Beispiel durch die Übersendung von Zugangsinformationen oder die Hinterlegung der Autorisierung in einer AAI-Infrastruktur. Da dieser Vorgang in der Regel sehr formalisiert abläuft und die gleichen Schritte erfordert, kann man dauerhaft und nachhaltig diese Berechtigungen auch in einer Blockchain hinterlegen. Ein möglicher Mechanismus dafür sind sogenannte Smart-Contracts.

Smart-Contracts sind im ursprünglichen Sinne keine Verträge, die durch Unterschrift geschlossen werden, sondern Programme, die in einer Blockchain selbst verwaltet und ausgeführt werden. So könnte man die Regeln und Verfahren zur Lizenzierung und Übereinkunft zur Datennutzung in einem solchen Programm festhalten und somit das Zustandekommen des Vertrags dokumentieren. [4] Auf der einen Seite würde dies Betreibende von Forschungsdatenrepositorien davon entlasten, die Wirksamkeit von gesetzten Bedingungen zur Datennachnutzung zu überprüfen. Gleichzeitig könnten Datengebende verlässlich, nachhaltig und über ihr mögliches Ausscheiden aus der Forschung (Pension, Verlassen von wissenschaftlichen Institutionen) hinaus sicherstellen, dass die von ihnen erwarteten Bedingungen eingehalten werden.

Einordnung und Ausblick

Die Technologie der Blockchain als solche ist noch relativ neu und vor allem ind er akademischen Welt bisher kaum angekommen. Daher gibt es bisher auch kaum Beispiele oder Anwendungsfälle aus dem wissenschaftlichen Bereich. Dies wird sich in den kommenden Jahren und Jahrzehnten sicher noch ändern, zu einer standardmäßig verwendeten Technologie wird sich die Blockchain im Bereich des Forschungsdatenmanagements jedoch wahrscheinlich nicht entwicklen. Mehr Informationen zu bereits existierenden Use Cases in der Wissenschaft sowie weiteres Material zum Thema findet man auf der Plattform Blockchain for Science.

Zumal es bereits jetzt an der Technologie, ihrer Funktionsweise und potentiellen Anwendungsmöglichkeiten zuviel Kritik gibt. So sind einige Kritiker, wie Jason Hoyt (Chefherausgeber von PeerJ) der Meinung, die Blockchain sei "eine Lösung, die nach einem Problem suche". Bereits in den vorangegangenen Abschnitten wurde das Problem des enormen Energiebedarfs bei Einsatz der Blockchain-Technologie geschildert. Und zu guter letzt steht auch schon die nächste neue Technologie in den Startlöchern: Tangle. Dabei handelt es sich um eine Technologie, in welcher die Blöcke nicht mehr nur als Kette angeordnet sind, sondern in einem Netz, in welchem viele Blöcke auf viele andere Blöcke und deren Daten verweisen.

Ob die Blockchain (oder Tangle) im Bereich Forschungsdatenmanagment flächendeckend Fuß fassen wird, bleibt also abzuwarten.

Checkliste zur Vermeidung sinnfreier Blockchain-Projekte

  • Wird eine Technologie für Datenbanken mit mehreren User/innen mit schreibendem Zugriff benötigt?
  • Gibt es einen Mangel an Vertrauen zwischen den User/innen mit schreibendem Zugriff?
  • Kann es vorkommen, dass User/innen gleichzeitig auf die Daten schreiben?
  • Sollen Dritte als Transaktions-Vermittler ausgeschlossen werden?

Einzelnachweise

1. Judd Bagley, What is Blockchain technology? A Step-by-Step Guide For Beginners, zuletzt abgerufen am 17.10.2018.

2. Niels Boeing, Blockchain: An die Kette gelegt, Zeit Wissen Nr. 3 - Mai/Juni 2018.

3. Paul Stokes, Can blockchain be applied to Research Data Management?, zuletzt abgerufen am 17.10.2018.

4. Aravind Ramachandran/Murat Kantacioglu, Using Blockchain and smart contracts for secure data provenance management, zuletzt abgerufen am 17.10.2018.

5. ↑ Daniel Drescher (2017). Blockchain Grundlagen. Eine Einführung in die elementaren Konzepte in 25 Schritten. MITP, Frechen.