geralt / Pixabay-Lizenz

Big Data in der Forschung

Die Arbeit mit großen Datenmengen

Einstieg

Mit der Digitalisierung immer weiterer Bereiche von Gesellschaft, Wirtschaft und Wissenschaft wachsen die produzierten Datenmengen immer schneller an. Besonders detaillierte Computersimulationen produzieren enorme Datenmengen. Auch neue Anwendungen wie Mobile Apps, Sensoren und soziale Medien wie Facebook oder YouTube fördern das Datenwachstum.

In der Wissenschaft produzieren etwa Disziplinen wie Klimawissenschaft, Hochenergiephysik, Biochemie oder Medizin sehr große Datenmengen. Aber auch in Fächern wie Linguistik, Psychologie oder Soziologie spielt das Thema eine Rolle, wenn etwa Daten aus den sozialen Medien erhoben, gespeichert und analysiert werden müssen.

Um aus diesen Daten Wissen entstehen zu lassen, nutzen Forschende immer mehr auf maschinellem Lernen und künstlicher Intelligenz beruhende Methoden wie Text-Data-Mining (TDM) oder Mustererkennung.

Beispiele großer Datenmengen

In der Forschung spielen große Datensätze eine entscheidende Rolle bei der Untersuchung komplexer Fragestellungen und der Gewinnung neuer Erkenntnisse. Beispiele dafür sind:

  • Geowissenschaften und Astronomie: Klima- und Wetterdaten, wie etwa zeitlich und räumlich hoch-aufgelöste Klima- und Wettermodelle. Astronomische Daten, wie etwa hochaufgelöste Aufnahmen durch Teleskope sowie auch Computersimulationen. Und schließlich hoch-aufgelöste Daten aus der inzwischen sehr großen Satellitenflotte, die unsere Erde umkreist.
  • Sozialwissenschaftliche Daten: Es werden große Datensätze verwendet, um Muster und Trends in menschlichem Verhalten, Meinungen, sozialen Interaktionen und demografischen Merkmalen zu identifizieren, etwa mithilfe von Textmining (z.B. Sentiment- und Meinungsanalyse). Diese großen Daten können aus Umfragen, sozialen Medien, administrativen Aufzeichnungen oder anderen Quellen stammen.
  • Medizinische Daten bilden die Grundlage für die Untersuchung von Krankheitsmechanismen und die Entwicklung personalisierter Therapien. Diese Daten können klinische Daten, Bildgebungsdaten, Genexpressionsdaten, elektronische Patientenakten und andere medizinische Informationen umfassen.
  • Finanzdaten: Hier werden große Datensätze verwendet, um Märkte zu analysieren, Finanzmodelle zu entwickeln und Investitionsentscheidungen zu treffen. Diese Daten umfassen beispielsweise Aktienkurse, Handelsvolumina, Unternehmensfinanzdaten und andere finanzielle Informationen.
  • Agrarwirtschaftliche Daten: satellitengestützte Fernerkundungsdaten. Satelliten liefern hochauflösende Bilder der Erdoberfläche, die verwendet werden, um Informationen über Bodenbeschaffenheit, Pflanzenwachstum, Wasserverfügbarkeit und andere relevante Parameter zu erfassen.
  • Verkehrssektor: Große Daten zu Verkehrsstaus, Verkehrsbelastung, und andere Informationen über den Verkehrsfluss werden mithilfe von Sensoren, Kameras und GPS-Tracking-Systemen erfasst. Diese Daten ermöglichen die Analyse von Verkehrsmustern, die Vorhersage von Verkehrsengpässen und die Optimierung von Verkehrsmanagementstrategien.

Wie groß ist groß? Maßeinheiten für Daten

Die derzeit größte digitale Speichereinheit ist ein Yottabytedas sind 10^24 Bytes. Ein Yottabyte entspricht der Datenmenge, die von jedem Menschen auf der Erde erzeugt wird, der sein gesamtes Leben in Videoform über 500.000 Jahre lang geteilt hat.

Im November 2022 wurde gemeldet, dass die General Conference on Weights and Measures (CGPM) sich auf Benennungen für noch grössere Datenmengen geeinigt hat, die in den 2030er Jahren erwartet werden: Ronnabyte (10^27 Byte) und Quettabyte (10^30 Byte).

Die Abfolge der Einheiten: Megabyte, Gigabyte, Terabyte, Petabyte, Exabyte, Zettabyte, Yottabyte und Brontobyte
Quindazzi, Mike [@mikequindazzi] auf Twitter

Weitere Einheiten großer Datenmengen sind:

  • Terabyte: Ein TB bietet ungefähr Speicherplatz für: 250.000 Fotos, die mit einer 12MP-Kamera aufgenommen wurden; 250 Filme oder 500 Stunden HD-Videos; oder 6,5 Millionen Dokumentseiten in Form von Office-Dateien, PDF-Dateien oder Präsentationen.
  • Petabyte: Ein Petabyte entspricht etwa 20 Millionen mit Text gefüllten Aktenschränken mit vier Schubladen oder etwa 500 Jahren ununterbrochener Videowiedergabe.
  • Exabyte: Ein Exabyte entspricht ungefähr 200 Millionen Jahren ununterbrochener MP3-Audiowiedergabe oder dem gesamten Text, der in 50 Millionen Laptops enthalten ist.
  • Zettabyte: Ein Zettabyte entspricht der Datenmenge, die von über 2,5 Milliarden Menschen erzeugt wird, die ein ganzes Jahr lang kontinuierlich ihr gesamtes Leben in sozialen Medien teilen.

Große Datenmengen und Big Data

Große Datensätze und Big Data sind eng miteinander verbunden, haben allerdings unterschiedliche Bedeutungen:

Große Datensätze beziehen sich auf umfangreiche Mengen von Daten, die oft in Terabyte, Petabyte oder sogar Exabyte gemessen werden. Diese Datensätze können strukturierte, unstrukturierte oder halbstrukturierte Daten enthalten und stammen aus verschiedenen Quellen und Bereichen wie Sensoren, sozialen Medien, Maschinenprotokollen, Transaktionen, wissenschaftlichen Experimenten und mehr. Die Herausforderung bei großen Datensätzen besteht darin, sie effizient zu speichern, zu verwalten, zu verarbeiten und darauf zuzugreifen.

Big Data hingegen bezieht sich auf den gesamten Prozess der Sammlung, Speicherung, Verarbeitung, Analyse und Interpretation großer Datensätze. Big Data umfasst nicht nur die Größe der Daten, sondern auch die Komplexität und Vielfalt der Daten sowie die verwendeten Technologien und Analysemethoden, um strukturierte und unstrukturierte Daten zu verarbeiten, zu analysieren und daraus wertvolle Informationen zu extrahieren sowie Erkenntnisse zu gewinnen. Es wird von in der Regel von Big Data gesprochen, wenn die Daten die folgenden 5 Merkmale (5 Vs) aufweisen:

  • Volume – Datenmenge, also sehr große Datensätze oder eine sehr große Anzahl kleiner Datensätze (z.B. Tweets)
  • Velocity – Geschwindigkeit der Datenerzeugung und des Datentransfers. Ein einzelner Tweet auf Twitter verbraucht nicht viel Speicherplatz, aber neue Tweets werden ununterbrochen und in großer Menge und Geschwindigkeit gepostet.
  • Variety – Vielfalt von Datentypen. Forschungen z.B. im Social-Media-Bereich können Daten in den Bereichen Text, Bild, Audio und Video umfassen.
  • Veracity – Wahrhaftigkeit ist ein Maßstab für die Qualität und Genauigkeit der Daten. Sind große Datenmengen z.B. uneinheitlich oder unvollständig, wirkt sich das auf den Aufbereitungsaufwand und die Auswertungmöglichkeiten aus.
  • Value – Wert, der aus Daten gezogen werden kann, entweder für die wissenschaftliche Forschung oder für die Zwecke von kommerziellen Firmen wie Google, Amazon, Meta, usw.

In datenintensiven Disziplinen gibt es oft eigene Datencenter, die auf die besonderen Anforderungen der jeweiligen Datentypen ausgelebt sind und in der Regel über Hochleistungs-Rechenkapazitäten verfügen. Ein Beispiel dafür ist das Deutsche Klima-Rechenzentrum DKRZ. Zu den Hauptaufgaben der dortigen IT-Systeme gehören die Aufbereitung, Qualitätsbeurteilung und langfristige Aufbewahrung von Klimamodellierungsergebnissen. Da die Klimawissenschaft stark vernetzt ist, kommt auch die weltweite Verteilung und Bereitstellung von Klimadaten und internationalen Klimadatenverbünden hinzu. (Quelle: DKRZ)

Eine anschauliche Fallstudie zu den Herausforderungen und Lösungsstrategien findet sich im Praxishandbuch Forschungsdatenmanagement (2021).

Herausforderung: Energieverbrauch

Gesamthaft betrachtet, ist der hohe Energieverbrauch von Big Data eine der größten Herausforderungen – technisch und ökologisch. Nach Berechnungen der Internationalen Energieagentur beläuft sich der Stromverbrauch von Datencentern und Datenübertragungsnetzwerken jeweils auf 1-1,5% des weltweiten Verbrauchs. Der damit verbundene Treibhausgasausstoß beläuft sich auf 1% der energiebezogenen weltweiten Emissionen. Strategien, diesem Problem zu begegnen, sind etwa die Konzentration von Rechenkapazitäten oder die Nutzung von erneuerbaren Energien.