FDM-Budgetplanung

Kosten vorausdenken und einplanen

Bild von Steve Buissinne/CC0

Datenmanagement ist schon für die Einhaltung der Regeln guter wissenschaftlicher Praxis erforderlich[1], kann aber auch darüber hinaus notwendig sein. Kosten können anfallen, wenn besondere Maßnahmen ergriffen werden, um bspw. eine bessere Sicherung oder Nachnutzbarkeit von Daten zu gewährleisten. Ein etwaiger Einsatz besonderer Werkzeuge zur Erstellung der Dokumentation oder die Entwicklung eines Repositoriums oder einer virtuellen Forschungsumgebung verursacht Mehrkosten, die in Förderanträgen benannt und geplant werden können. [2]

Welche Kostentypen fallen an?

Zur Beurteilung der Kosten sollten verschiedene Kostentypen mitbedacht werden:

  • Personalkosten (auch für das Datenmanagement)
  • Materialkosten, unterteilt in Kosten für Ausstattung (z. B. Server, Geräte) oder Werkzeuge (Software) und Gerätezeit (bei gemeinsam genutzten Großgeräten)
  • Dienstleistungskosten: Gebühren etwa für nachgenutzte Daten, für die Übernahme der Daten in ein Langzeitarchiv, Publikationsgebühren, Schulungen
  • Overhead / Gemeinkosten: das sind z. B. indirekte Kosten, die im Zusammenhang mit einer Bereitstellung von Infrastruktur entstehen (Miete, Heizkosten, Strom, Telefon, etc.). 

Weiterhin zu beachten ist:

  • Handelt es sich um einmalige oder regelmäßige Kosten und wie lange fallen diese ggf. an?
  • Wie hoch sind die Kosten und der Personalaufwand für das Datenmanagement während des Projekts bzw. nach Projektabschluss?
  • Werden Teile der Datenmanagementkosten möglicherweise bereits über die Gemeinkosten abgedeckt, die je nach Praxis des Forschungsförderers ausgezahlt werden?
  • Bei frühzeitiger Planung der Maßnahmen sowie deren Umsetzung fallen die Kosten für das Datenmanagement tendenziell geringer aus. Wenn von vornherein ein Schema / Standard für die Metadaten und Dokumentation vereinbart wird, können alle Projektbeteiligten sich direkt daran orientieren.
  • Werden erforderliche Maßnahmen nachträglich oder mit großer Verzögerung umgesetzt, kann das eventuell höhere Kosten und einen höheren Zeitaufwand nach sich ziehen, bspw. zu mangelhaft aufgearbeitete Metadaten führen.
  • Stehen alle Verantwortlichen und Beteiligten hinter den Plänen zum Datenmanagement? 

Das 'Keeping Research Data Safe-Modell' (KRDS) zur Budgetkalkulation

Zur eigentlichen Bestimmung der Kosten der Bewahrung digitaler Daten haben sich zwei mehrphasige Projekte Modelle und Fallstudien entwickelt: das Keeping Research Data Safe (KRDS) und das LIFE-Projekt.[3] In beiden Fällen orientieren sich die Berechnungsgrundlagen am DCC Curation Lifecycle Model. Eine Kostenplanung kann eine Abschätzung der Kosten – orientiert an den einzelnen Phasen – durchführen. Im KRDS-Modell gliedern sich die Kostenkategorien grob in drei Phasen:[4]

Vorarchiv-Phase: Hier fallen neben den Kosten für die Schaffung der Daten auch jene für Beratung, Schulung und die Planung des Datenmanagements selbst an.

Archiv-Phase: Die wesentlichen Kostenkategorien in diesem Abschnitt betreffen die einzelnen Lebenszyklusphasen, die in dem Modell dieses Leitfadens von Auswahl und Bewertung bis Zugriff und Nutzung reichen. Zusätzlich werden insbesondere Innovationskosten für die Entwicklung von neuen Werkzeugen, Standards etc. darunter verbucht.

Phasenübergreifende Unterstützungsdienste: Kosten für die Verwaltung aller Aktivitäten, der allgemeinen IT-Basisinfrastruktur und der Aufwände für benötigte Räume und Gebäude.

Aufgaben im Lebenszyklus von Forschungsdaten, eingeteilt in Vorarchiv- und Archiv-Phase, nach dem UK Data Service und dem KRDS-Modell (erstellt mit Lucid-Chart)

Wo entstehen die meisten Kosten?

Die meisten Kosten fallen bei der Datenakquisition und -erfassung an. Fallstudien konnten zeigen, dass die Kosten der Archivierung und Erhaltungsaktivitäten konsequent einen sehr geringen Anteil der Gesamtkosten bilden und deutlich niedriger ausfallen als die Anschaffungs- und Erhaltungskosten oder Access-Aktivitäten:[5]

 Outreach/Acquisition/IngestArchival Storage and Preservation                  Access                
c. 55%c. 15%c. 31%


Projizierte Erhaltungskosten (Auffrischung/Erneuerung) für den Datendienst Archäologie (ADS) auf der Grundlage gesammelter Erfahrungen der ersten 10 Jahre des Datendienstes (KRDS1, 2008;CC BY 4.0)

Es zeigt sich hier, dass der Trend zu relativ hohen Erhaltungskosten für Datensammlungen aus früheren Jahren im Laufe der Zeit abgenommen hat.


Überblick: Stationen im Datenlebenszyklus und deren Kostenkomponenten

Datenorganisation

Wurde im Vorfeld der Datenerhebung festgelegt, wie Dateien benannt, geordnet und versioniert werden, so entstehen hierfür kaum zusätzliche Kosten. Kosten entstehen, wenn nachträglich Dateibenennungen vereinheitlicht oder Verzeichnisstrukturen zusammengeführt und/oder neu organisiert werden müssen.

Datenbereinigung und -aufbereitung

Dies umfasst z. B. Maßnahmen zur Verifizierung/Validierung der erhobenen Daten, Qualitätskontrollen, etc. Erfolgen diese Maßnahmen direkt mit der Erhebung nach festgelegten Regeln, entstehen nur geringe zusätzliche Kosten. Kosten können auch anfallen, wenn Daten genutzt werden, die vom Projekt selbst nicht erhoben wurden. Diese Daten müssen u. U. ebenfalls aufbereitet werden (z. B. Harmonisierung von Daten aus unterschiedlichen Quellen).

Datenzugang und Datenübermittlung

Wird spezielle Software oder Hardware benötigt, um Daten in der Erhebungsphase sicher an einer zentralen Speicherort zu übermitteln (z. B. aus dem Feld von Mobilgeräten, etc.) oder um Forschenden den Remote-Zugang zu ermöglichen?

Metadatenerstellung und Dokumentation des Forschungsprozesses

Muss ein Metadatenschema erarbeitet werden, oder kann ein bestehendes Schema verwendet werden? Sind bereits Anforderungen des Repositoriums, Forschungsdatenzentrums oder Langzeitarchivs bekannt, in welchen die Daten nach Projektende archiviert werden sollen und können von Anfang an berücksichtigt werden? Müssen Dokumentation und Metadaten nachträglich erstellt oder bearbeitet werden, ist das kostenintensiver als deren Erstellung bei der Entstehung der Daten.

Kollaboratives Arbeiten

Wird zusätzliche Software benötigt, um die Zusammenarbeit im Projekt zu unterstützen und möglichst transparent zu gestalten (z. B. Kommunikationsplattformen, virtuelle Forschungsumgebungen, usw.)?

Publikationskosten für Datensätze

Sollen die Daten in ein Repositorium überführt werden und dort öffentlich online zur verfügbar sein, so entstehen evtl. abhängig vom gewählten Repositorium zusätzliche Kosten. www.re3data.org gibt hier eine Übersicht.

Digitalisierung von nicht-digitalen Objekten

Wird zusätzliche Hard- und Software benötigt? Mit welchem Zeitaufwand ist zu rechnen – für die Digitalisierung als solche sowie Qualitätskontrollen und mögliche manuelle Nachbearbeitung, Aufbereitung von Materialien (z. B. Feldnotizen, ...) für die Archivierung oder Zugänglichmachung?

Nachbereitung für ein Archiv

Werden die Anforderungen des Archivs von Anfang an berücksichtigt, fallen die zusätzlichen Kosten geringer aus, als wenn zum Projektende die Daten und die Dokumentation nachbearbeitet werden müssen. Müssen Daten und Dokumentation für die Archivierung in einem Forschungsdatenzentrum, Archiv oder Repositorium besonders aufbereitet werden?

Datenkonvertierung

Müssen Daten und Dokumentation in bestimmte Formate konvertiert werden? Auch hier gilt: Die Kosten sind deutlich geringer, wenn die Anforderung des Archivs von Anfang an berücksichtigt werden. Wird für die Konvertierung zusätzliche Hard- und Software benötigt? Wie groß ist der Zeitaufwand für die Durchführung der Konvertierung und eine Qualitätskontrolle der Ergebnisse?

Datenübergabe an ein Langzeitarchiv

Welche Zeit- und Personalressourcen werden für die Kommunikation zur Übergabe der Daten, Ausgestaltung der Lizenzvereinbarungen, Ausfüllen von Übergabeformularen etc. benötigt?

Regelmäßige oder einmalige Gebühren

Werden von Langzeitarchiv oder Repositorium Gebühren erhoben? Wenn ja, handelt es sich um einmalige Kosten (z. B. weil der Ingest besonders aufwendig ist) oder um Kosten, die regelmäßig über die gesamte Archivierungsdauer anfallen?

Aufbereitung von Software

Ist im Rahmen des Projekts Software entstanden, die für eine Archivierung und mögliche Nachnutzung aufbereitet werden muss?

Klärung von Rechten

Zeit- und Personalaufwand für die Klärung der Frage, wer die Rechte an den Daten hat (aufwendiger bei Projekten, an denen verschiedene Institutionen beteiligt sind, insbesondere wenn wirtschaftliche Interessen berührt werden). In komplexen Fällen ggf. Kosten für eine Rechtsberatung.

Anonymisierung personenbezogener Daten

Werden Daten früh anonymisiert, entstehen geringere Kosten, als wenn nachträglich anonymisiert werden muss. Der Aufwand (und damit die Kosten) hängen wesentlich von der Art der Daten ab (quantitativ vs. qualitativ, textuell vs. audio-visuell ...).

Lizenzen

Auswahl passender Lizenzen. Können modulare Lizenzen wie z. B. Creative Commons nachgenutzt werden (geringe Kosten), oder müssen eigene Lizenztexte und Vereinbarungen erstellt werden (höhere Kosten)?

Vertrieb der Daten

Sollen die Daten über ein projekteigenes Repositorium zur Nachnutzung verfügbar gemacht werden, fallen zusätzliche Kosten an – z. B. für die Entwicklung, für zusätzlich benötigt Hard- und Software sowie personelle Ressourcen. Je nach angestrebter Lösung können die Kosten sehr unterschiedlich ausfallen. Zu berücksichtigen ist hier aber insbesondere, dass ein solches Repositorium auch nach Projektende Kosten verursacht.

Nutzerbetreuung und -beratung

Wenn Daten vom Projekt von der eigenen Institution vertrieben werden sollen, dann müssen u. U. Ressourcen für den Support nach Projektende eingeplant werden.

Allgemeine Folgerungen

  1. Höchste Kosten am Anfang: Digitale Forschungsdaten haben oftmals einen langfristigen Wert – um diesen Wert zu erhalten, müssen auch Investitionen langfristig erfolgen.  Bei einer groben Einteilung der Datenerhaltung in die Übernahme-, Speicher- und Zugriffsphase lassen sich ungefähr die Hälfte der Kosten der Übernahme (Ingest) in das Archiv zuordnen. Die zweitaufwendigste Phase ist der Zugriff, die Speicherphase ist am günstigsten.[6]
  2. Warten und Nichtstun ist teuer: Diese am Anfang entstehenden Kosten sollten nicht aufgeschoben werden, weil das spätere Nacharbeiten diese ind er Regel nur noch steigert. Ein Beispiel sind Aufwendungen für Qualitätskontrolle und Metadaten. Werden diese früh getätigt, kann dies zudem eine höhere Effizienz der übrigen Abläufe ermöglichen.[7]
  3. Personal verursacht den größten Kostenanteil: Für ein verlässliches Datenmanagement wird ausreichend qualifiziertes Personal benötigt. Bei den Personalkosten handelt es sich oft um versteckte Kosten, die bei der Budgetplanung vernachlässigt werden.  KRDS gibt eine Größenordnung von 70% und mehr für Personalkosten an.[8]
  4. Jährliche sinkende Kosten: Aufgrund der hohen einmaligen Anfangskosten und der zunehmenden Effizienz der Technologien sinken die jährlichen Kosten für die Aufbewahrung eines Datenbestands.  Dies hat z. B. zur Entwicklung eines simplen Geschäftsmodells „Pay Once, Store Forever“ an der Princeton University geführt, das aber auch nur einen sehr begrenzten Service vorsieht.[9]

Mehr über die direkten und indirekten Vorteile des FDM und der Datenarchivierung werden auch vom Projekt Keeping Research Data Safe aufgelistet.

Fazit

Bei frühzeitiger Planung können aus den anfallenden Kosten für FDM auch Produktivitätsgewinne gezogen werden. Von der Möglichkeit für FDM in Förderanträgen zusätzliche Mittel zu beantragen, sollte nach Möglichkeit gebraucht gemacht werden, um nicht im Nachhinein von ungedeckten Kosten überrascht zu werden. Außerdem werden Folgeanträge oder Projektverlängerungen in Zukunft noch stärker von der FDM-Vorarbeit abhängig sein, denn FDM gewinnt  für die Fördergeber zunehmend an Bedeutung.

Wer übernimmt die Kosten für das Datenmanagement?

• Die DFG rät bspw. Antragstellenden, projektspezifische Kosten zu beantragen, die bei der Vorbereitung einer Nachnutzung von Forschungsdaten entstehen (DFG, 2015).

• Es empfiehlt sich in Förderanträgen alle zusätzlichen Kosten zu beziffern, die im Rahmen des Projekts für das Datenmanagement, die Archivierung und Nachnutzung von Daten entstehen.

• Gebühren, die für die Publikation und Langzeitsicherung von Daten und Dokumentation (in einem Data Journal, in einem Archiv, etc.) anfallen.

• Kosten des Datenmanagements, die bei Aktivitäten des regulären Forschungsprozesses entstehen, werden in der Regel über die Projektmittel gedeckt.

• Sofern keine zusätzlichen Mittel für das Datenmanagement beantragt wurden, müssen unter Umständen auch zusätzlich anfallende Kosten hierfür aus Projektmitteln gedeckt werden.

• Es gibt Angebote zu virtuellen Forschungsumgebungen und anderen Verfahren, die die (internationale) Zusammenarbeit verbessern sowie meist ein rudimentäres Angebot zum Backup der laufenden Projekte.

• Kosten für eine Langzeitsicherung und Verfügbarmachung von Daten werden von den jeweiligen Archiven, Datenzentren und Repositorien oft selbst getragen. Das heißt, es werden keine Gebühren für die entsprechenden Dienstleistungen erhoben (insbesondere wenn diese aus öffentlichen Geldern finanziert werden). Wegen besonderer Qualitätskontrolle oder anderer Gründe, werden manchmal aber auch Gebühren für die Übernahme von Daten erhoben.

• Die Nachnutzung von Forschungsdaten ist oft kostenlos – insbesondere, wenn es sich um Ergebnisse öffentlich geförderter Forschung handelt.

• Gelegentlich werden aber für die Nachnutzung von Daten Gebühren erhoben, insbesondere dann, wenn mit der Bereitstellung der Daten ein besonderer Aufwand verbunden ist (z. B. individuell zusammengestellte Datensammlung)

Einzelnachweise

  1.  DFG, 2013: Sicherung guter wissenschaftlicher Praxis / Safeguarding Good Scientific Practice. Denkschrift /Memorandum,Weinheim: Wiley-VCH Verlag.
  2.  Bertelmann R., Gebauer P., Hasler T., Kirchner I., Peters-Kottig W., Razum M., Recker A., Ulbricht D, van Gasselt S. (2014): EWIG-Broschüre. Einstieg ins Forschungsdatenmanagement in den Geowissenschaften. Potsdam, 24 p. DOI: http://doi.org/10.2312/lis.14.01
  3.  Ludwig, J., & Enke, H. (Eds.). (2013): Leitfaden zum Forschungsdaten-Management. Handreichungen aus dem WissGrid-Projekt. Glückstadt: Verlag Werner Hülsbusch
  4.  Charles Beagrie Ltd / JISC (Hrsg.) (2010): Keeping Research Data Safe , Factsheet 
  5. Charles Beagrie Ltd / JISC (Hrsg.) (2010): Keeping Research Data Safe , Factsheet; KRDS1: Beagrie, N., Chruszcz, J., and Lavoie, B. (2008): Keeping Research Data Safe: a cost model and guidance for UK universities, Final Report April 2008; KRDS2: Beagrie, N., Lavoie, B., and Woollard, M. (2010): Keeping Research Data Safe 2, Final Report April 2010.
  6. KRDS2: Beagrie, N., Lavoie, B., and Woollard, M. (2010): Keeping Research Data Safe 2, Final Report April 2010.
  7. Nationaal Archief (2005): Costs of Digital Preservation.
  8. Beagrie, Neil et al. (2011): User Guide for Keeping Research Data Safe. Version 2, July 2011.
  9. Goldstein, Serge J. & Ratliff, Mark (2010): DataSpace: A Funding and Operational Model for Long-Term Preservation and Sharing of Research Data. DOI: http://arks.princeton.edu/ark:/88435/dsp01w6634361k