Formate erhalten

Inhalte langfristig sichern

Bild von Wikimedia Commons/public domain

Je nach verwendeter Software und den weiteren Zielen eines Forschungs­projekts, sind einige Dateiformate besser geeignet als andere. Im wissen­schaftlichen Bereich sollte vor allem auf die Kompatibilität, die Eignung zur Langzeitarchivierung und die verlust­freie Konvertierung in alternative Formate geachtet werden. Es gibt verschiedene abstrakte Format­eigen­schaften, die für eine Archiv­fähigkeit besonders relevant sind: 

Maschinen­lesbarkeitVon Menschen lesbarLangzeit­stabilitätMetadaten
sehr gutmit weit ver­breiteter offener Softwareja und ohne Spezial­softwaregenormter Standardvollständig enthalten
gutmit gut ver­breiteter und doku­mentierter Softwarenach Standard­verfahren komprimiert, aber eigentlich jaschon lang oder groß­flächig etablierttechnische Angaben sind enthalten
mittel­mäßigproprietäres Standard­formatmit offener Soft­ware (zuver­läs­sig?) in höhere Klasse konvertierbarrelativ neues Formateinige wichtige (z. B. Einheiten) sind enthalten
schlechtselbst­entwickelte Lese-Softwareneingerade erst erfundenkeine Angaben

Teilweise sind die aufgelisteten Eigenschaften der Platzeffizienz oder der Performance nicht zuträglich. Wenn jedoch Format­umwandlungen ohne Informations­verlust möglich sind, können für die Archivierung und Nachnutzung durchaus auch andere Formate verwendet werden als für aktive Forschung. Die Tabelle umfasst nicht das gesamte Spektrum an Varianten, allerdings sind Formate im oberen Teil der Tabelle geeigneter als "schlecht" abschneidende Formate.

Kompatibilität verschiedener Dateiformate

Für die Erstellung von Daten werden je nach Fachdisziplin und Mess­methode spezialisierte Programme verwendet. Die meisten Programme nutzen eigene Datei­formate. Oft ermöglicht eine zusätzliche Export­funktion das Abspeichern in alternativen Formaten. Dies erlaubt beispielsweise den Daten­­austausch zwischen Programmen verschiedener Hersteller.

Dieser englischsprachige Artikel über die Popularität von Formaten für statistische Analyse, Datenbanken und Programmier­sprachen ist zu diesem Thema lesenswert. Die Abbildungen und Rankings ermöglichen eine gute Abschätzung, welches das am ehesten geeignete Format sein könnte. Je populärer ein Format, desto wahrscheinlicher ist es noch lange nutzbar.

Beispiel: Für statistische Analysen sind SPSS, R, SAS und STATA populär. Das gängige Format einer SPSS Datei wird mit *.sav bezeichnet. Möchte man die Datei nun im Programm STATA öffnen, ist ein anderes Dateiformat (*.dta) erforderlich. R ist eine offene Sprache und deshalb hier unserer Meinung nach die Ideallösung für die Archivierung solcher Dateien. Unter den populärsten zehn Formaten gibt es jedoch auch sonst keines, welches als schlecht geeignet bezeichnet werden müsste.

Welche konkreten Dateiformate sind ideal für Langzeitarchive?

In einer Studie der Universität Illinois von 2014 untersuchten Rimkus et al. die Regelwerke von 118 akademischen Bibliotheken Nordamerikas hinsichtlich der empfohlenen Dateiformate .[1] Besonders häufig genannt und als vertrauenswürdig eingeschätzt wurden die fünf folgenden Dateiformate:

  1. Tagged Image File Format (TIFF, TIF) für Bilder
  2. Plain text document (TXT, ASC) für Dokumente
  3. Portable Document Format/A (PDF/A) für Dokumente
  4. Waveform Audio File Format (WAV) für Audiodateien
  5. Extensible Markup Language (XML) für Dokumente

Insgesamt vertrauen die Bibliotheken 18 Dateiformaten in unterschiedlichem Ausmaß. Der United States Geological Survey stellt auf seinen Webseiten eine Standardisierung von Daten und Dateiformaten für Wissenschaftler sowie Datennachnutzer vor. Weitere Empfehlungen für Dateiformate anhand von Kriterien zur Nachnutzbarkeit der Daten finden sich bei Dariah-DE. Weiterhin hat die ETH Bibliothek Zürich aus dem Florida Digital Archive sowie aus der Tabelle (Rimkus et al. 2014)  eine Übersicht zur Einschätzung der zukünftigen Lesbarkeit einiger gebräuchlicher Dateiformate zusammengestellt. Die Informationen dazu finden Sie in den Akkordeons am Ende dieses Artikels.


Die Konvertierung in andere Dateiformate

Dateiformate können verlustfrei, verlustbehaftet oder sinnhaft konvertiert werden. Eine verlustfreie Konvertierung ist in der Regel vorzuziehen. Liegt die Priorität allerdings bei geringeren Dateigrößen, müssen oft Informationsverluste in Kauf genommen werden. So ist beispielsweise die Umwandlung von Audiodateien wie WAV in MP3 verlustbehaftet, da durch die Komprimierung Informationen verloren gehenund sich die Tonqualität verschlechtert. Allerdings ergibt sich durch die Umwandlung der Vorteil einer geringeren Dateigröße. Übrigens gehen im umgekehrten Fall bei der Umwandlung von MP3 in WAV keine Informationen verloren.

Ein weiteres Beispiel sind Bildformate wie JPG (Joint Photographic Experts Group) und PNG (Portable Network Graphics). Die Kompression beim Speichern eines Bildes im JPG-Format ist nicht verlustfrei. Das bewirkt, dass die Ränder zwischen Farbbereichen je nach Stärke der Datenreduktion unscharf werden können. PNG hingegen ist ein Bildformat, das verlustfrei komprimiert wird. Die Bildqualität nimmt also nicht ab. Beim PNG-Format werden aber Metadaten nicht immer nach gültigen Standards gespeichert, weshalb einige Programme Probleme beim Auslesen aller Metadaten haben.

Demgegenüber bedeutet eine sinnhafte Konvertierung, dass die wesentlichen Inhalte bestehen bleiben. Hierbei werden lediglich irrelevante Informationen entfernt.

Meist kann die Konvertierung einfach in der verwendeten Software bei „Speichern unter“ oder „Export“ durchgeführt werden. In besonderen Fällen wird ein eigener Konverter benötigt. Welches Format dabei für einen Datensatz in Frage kommt, muss entsprechend der Anforderungen entschieden werden. Mithilfe von Studien wie zum Beispiel der Experimental Study on Lossless Compression of Biometric Sample Data können die Vor- und Nachteile von Konvertierung noch genauer nachvollzogen werden.


Übersicht häufig gebrauchter Dateiformate [2]

Nicht alle Dateiformate sind im gleichen Maße mittel- bzw. langfristig archivierbar. Vor allem proprietäre Formate, deren Nutz- und Lesbarkeit von bestimmten Softwareherstellern beziehungsweise Plattformen abhängig ist, eignen sich nicht zur Archivierung und sollten daher in unabhängige, langfristig lesbare Formate konvertiert werden.

Textformate

Geeignet zur Nutzung für mehr als zehn Jahre

  • PDF/A (*.pdf)
  • Unformatierter Text (*.txt, *.c, *.cpp, *.m, usw.) kodiert aus ASCII, UTF-8, oder UTF-16 mit Byte Order Mark (BOM)
  •  XML (inklusive XSD/ XSL/ XHTML, etc. wobei Schema und Buchstabenkodierung explizit in der Datei angegeben werden sollen)

Geeignet für zehn Jahre und unter Umständen länger

  • PDF (*.pdf) mit eingebetteten Fonts
  • Unformatierter Text (*.txt, *.cpp, *.py, *.m, usw.) (ISO 8859-1 kodiert)
  • Rich Text Format (*.rtf)
  • HTML (inkl. Doctype Deklaration)
  • Word (*.docx), Libre Office (*.odt)
  • PowerPoint (*.pptx)
  • LaTeX, TeX (Benutzte lizenzfreie Softwarepakete mit Spezialfonts u.ä. sollten auch archiviert werden)
  • HTML und XML (ASCII- bzw. UTF-8-Kodierung sind langfristig lesbar; externe Links möglichst vermeiden)
  • Programmcode und Skripte (*.cpp, *.sh usw.; ASCII- bzw. UTF-8-Kodierung sind langfristig lesbar; benutzte lizenzfreie Softwarepakete und Libraries sollten auch archiviert werden)

Nicht archiv­tauglich

  • Word (*.doc)
  • Power­Point (*.ppt)

Empfohlene Konvertierungen

  • Möglichst Word und PowerPoint Dateien zu PDF/A-1b Dateien konvertieren
  • LaTex and TeX möglichst  zu PDF/A konvertieren
  • Die Qualität von Konvertierungen muss sorgfältig visuell überprüft werden. Besonders zu beachten sind Formeln, Sonderzeichen, Umlaute, spezielle Fonts, Schreibfehler, Auswählen und Suchen in Text, Tabellen, Farben oder transparente Objekte, Kommentare und verschiedene Ebenen.

Spread­sheets und Tabellenformate

Geeignet zur Nutzung für mehr als zehn Jahre

  • durch Komma, Semikolon oder Tab getrennte Textdateien (*.csv)

Geeignet für zehn Jahre und unter Umständen länger

  • Excel (*.xlsx)
  • Open Document Spreadsheet (*.ods)

Nicht archiv­tauglich

  • Excel (*.xls, *xslb; binäre Formate) 

Empfohlene Konvertierung

  • Für wichtige Objekte (wie z. B. Figuren) sollte möglichst auch eine Kopie als separate Datei abgespeichert werden
  • Tabellen können zu ASCII Text-Dateien konvertiert werden (*.csv)

Statistische Umgebungen

Geeignet zur Nutzung für mehr als zehn Jahre

  • Es gibt keine Formate, die diesen Zweck erfüllen

Geeignet für zehn Jahre und unter Umständen länger

  • Textdateien für S-Plus (*.sdd). Der ASCII Text ist langfristig nutzbar, die spätere maschinelle Lesbarkeit ist jedoch unsicher
  • *.R
  • Matlab (*.mat) in HDF Format speichern, denn nichttriviale Matlab ASCII files können mit load nicht gelesen werden (siehe Tabelle 2)

Nicht archiv­tauglich

  • Binäre Dateien wie komprimiertes Matlab (*.mat)

Empfohlene Konvertierung

  • Matlab Dateien (*.mat) als v7.3 MAT-Dateien abspeichern weil es dadurch einem auf HDF5 basierndem Standard folgt (HDF5 ist ein offener Standard für Tabellen, Mediadaten und komplexe Datenstrukturen)
  • Die S-Plus Funktion data.dump produziert eine Datei, welche auch mit der R-Funktion data.restore aus dem Paket foreign gelesen werden kann
  • Für komplexe Datenstrukturen ist es meist nicht sinnvoll den Workspace als ASCII zu speichern, weil dies zu schwernachvollziehbaren Dateien führt
  • Wichtige Tabellen im Workspace sollten separat als CSV-Datei gespeichert werden

Raster­graphikformate

Geeignet zur Nutzung für mehr als zehn Jahre

  • Tagged Image File Format (TIFF) (*.tif) unkomprimiert möglichst TIFF 6.0, Baseline TIFF
  • Portable Network Graphics (PNG) (*.png)
  • JPEG2000 (*.jpg, *jpeg) (JPEG2000 ermöglicht verlustfreie Kompression)

Geeignet für zehn Jahre und unter Umständen länger

  • Graphics Interchange Format (GIF) (*.gif) 
  • JPEG/JFIF (*.jpg, *jpeg, *jp2) (falls Informationsverlust "unproblematisch" ist)
  • Bitmap image format (BMP) (*.bmp)

Vektor­graphikformate

Geeignet zur Nutzung für mehr als zehn Jahre

  • Scalable Vector Graphics (SVG) (*.svg, *svgz) ohne Javascript binding und Fonts ev. als Pfade

Geeignet für zehn Jahre und unter Umständen länger

  • Drawing Interchange Format (*.dxf)
  • Flaches XML ODF (*.fodg) bzw. ODF-Zeichnung (*.odg) (am besten mit offener Software speichern bzw. Datei und korrekte Anzeige damit überprüfen)

Nicht Archiv­tauglich

  • Graphik InDesign (*.indd), Illustrator (*.iat)
  • Encap­sulated Postscript (*.eps)

Empfohlene Konvertierung

  • Vektorgraphikdateien werden langfristig eher schwieriger zu öffnen sein als Rastergraphikdateien (Bitmaps, GIF, usw.). Auch das Einbetten von Vektorgrafiken in PDF-Dateien ist fehleranfällig. Dateien in speziellen Vektorgraphik-Formaten, wie InDesign (*.indd) oder illustrator (*.ait) sollten möglichst auch als baseline TIFF, PDF/A, SVG oder JPEG Datei abgespeichert werden. Die Qualität der Konvertierung muss sorgfälltig visuell überprüft werden (Schärfe, Auflösung, Farben, halbdurchsichtige Objekte, Beschriftungen) 

Multimediaformate

Geeignet zur Nutzung für mehr als zehn Jahre

  • Waveform Audio File Format (WAV) (*.wav) unkomprimiert, pulse-code moduliert
  • Motion JPEG 2000 (ISO/ IEC 15444-4) (*.mj2)
  • AVI (*.avi) unkomprimiert, motion JPEG
  • QuickTime Movie (*.mov) unkomprimiert, motion JPEG

Geeignet für zehn Jahre und unter Umständen länger

  • Advanced Audio Encoding (*.mp4)
  • MP3 (*.mp3)
  • MPEG-1, MPEG-2 (*.mpg, *.mpeg) in den Container-Formaten AVI oder MOV
  • MPEG-4 (H.263, H.264, H.265) in den Container-Formaten AVI oder MOV

Nicht archiv­tauglich

  • Video (*.wmv)

Formatinformation als PDF herunterladen

Die Identifikation von Dateiformaten

Normalerweise erkennt man das Dateiformat an der Dateinamenerweiterung (*.xyz). Allerdings werden die Erweiterungen manchmal nicht korrekt abgespeichert oder zeigen unbekannte Formate. Zur Identifikation verschiedener Dateiformate wurden deshalb diverse Tools entwickelt. In der Übersicht auf forensicswiki.org werden einige Tools näher vorgestellt. Empfehlenswert ist ebenfalls die kostenlose JAVA-Applikation DROID. Damit können auch unbekannte Formate und Inkonsistenzen ermittelt werden.

Einzelnachweise

  1.  Kyle Rimkus, Thomas Padilla, Tracy Popp, Greer Martin (2014), Digital Preservation File Format Policies of ARL Member Libraries: An Analysis.
  2.   ETH Zürich Bibliothek Fachstelle Digitaler Erhalt, Archivtaugliche Dateiformate, http://www.library.ethz.ch/ms/Digitaler-Datenerhalt-an-der-ETH-Zuerich/Downloads , Januar 2015.