Myriams-Fotos / Pixabay / Pixabay-Lizenz

Speichern und Übertragen großer Datenmengen

Aufgrund des Umfangs von Big Data in der Forschung gestalten sich Speicherung und Übertragung von großen Datenmengen häufig schwierig. Dieser Artikel stellt einige Möglichkeiten dar, wie mit diesen Schwierigkeiten umgegangen werden kann.

Physische Medien

Forschungseinrichtungen oder Unternehmen speichern große Datenmengen oft auf Magnetbändern. Für den Eigengebrauch sind externe Festplatten oder USB-Sticks für mittlere bis große Datenmengen (im hohen GB- oder im TB-Bereich) im Handel problemlos erhältlich. Oft ist auch das Versenden oder die Übergabe physischer Medien eine einfache Lösung für den Datentransfer. Allerdings muss die Integrität der Dateien und Medien regelmäßig kontrolliert werden, beim Transport ist außerdem zu bedenken, dass solche Medien leicht verloren gehen oder beschädigt werden können. Bei sensiblen Daten ist der physische Transfer ein praktischer Weg, das Internet als Übertragungskanal zu vermeiden, wenngleich die Daten dennoch durch Passwörter und Verschlüsselung geschützt werden müssen.

Netzwerkspeicher

Netzwerkspeicher (oft NAS = Network attached storage) werden meist zentral an Universitäten oder Forschungseinrichtungen angeboten und verwaltet und eignen sich für die Speicherung und Bearbeitung großer Datenmengen. Die Zusammenarbeit mit der Personen, die nicht an der jeweiligen Institution affiliiert sind, ist jedoch oft schwierig, da externer Zugriff auf das jeweilige institutionelle Netz gewährt werden muss.

Cloud-Dienste

Cloud-Dienstleister wie Microsoft (OneDrive), Google (Google Drive) und andere bieten vielfach zu keinen oder geringen Kosten größere Speicherkapazitäten für Einzelpersonen oder Institutionen (z.B. Google Drive bis zu 15 GB). Über Freigabelinks können innerhalb dieser Grenzen beliebig große Dateien und Ordner freigegeben und heruntergeladen werden. Auf das Versenden von Dateien spezialisieren sich Anbieter wie z.B. WeTransfer (kommerziell, bis zu 2 GB kostenlos), masv.io (kommerziell, bis zu 15 TB); nichtkommerzielle Alternativen werden von Forschungsinfrastrukturen betrieben, wie etwa der SwitchFilesender (bis 300 GB).

Tipps:

Eines der akutesten Probleme beim Speichern sowie beim Austauschen großer Daten über das Internet ist fehlende Netzwerkbandbreite (Internetgeschwindigkeit). In diesem Fall können sich Übertragungsvorgänge in die Länge ziehen oder wegen serverseitiger Zeitbeschränkungen sogar abgebrochen werden. Wenn ausreichend Bandbreite zu Verfügung steht, können Downloadmanager helfen, automatische Verbindungsabbrüche zu verhindern. Empfohlen werden Open-Source-Tools wie z.B. der Free Download Manager.

Forschende mit fortgeschrittenen technischen Fertigkeiten oder professioneller IT-Unterstützung können einen eigenen Internet-Server aufsetzen, der große Datensätze mittels spezieller Protokolle überträgt. Empfohlen werden hierfür Protokolle, die auch die Übertragungssicherheit gewährleisten, wie SFTP.

Übertragung und Speicherung großer Datenmengen kann ganz vermieden werden, wenn wissenschaftliche Berechnungen direkt auf den Hochleistungscomputern der Datenanbieter vorgenommen werden. Werden z.B. in den Klimawissenschaften nur Monats- statt Tagesmittelwerte der Temperatur benötigt, können Klimawissenschaftler*innen den Mittelungsprozess online auf dem Server des Deutschen Klima-Rechenzentrums (DKRZ) durchführen und dann nur die Monatsmittelwerte herunterladen, statt den ganzen Datensatz zu downloaden und zu analysieren.

Die Kosten für die Speicherung großer Datenmengen und für Hochleistungsrechnen können sich schnell summieren, so dass das Thema schon bei der Planung eines Projekts und beim Erstellen des Datenmanagementplans berücksichtigt werden muss.