Archivierung und Langzeiterhaltung

Know-how und Technologie

Durch langjährige Erfahrung und Projektarbeit verfügt die Forschungsgruppe  über umfassendes Know-how in den Bereichen digitale Archivierung und Langzeiterhaltung. Digital Preservation umfasst Standards, Best-Practices und Technologien zur langfristigen Sicherung des Zugangs zu digitalen Informationen. Die Gruppe bietet in diesem Bereich eine Reihe von Dienstleistungen auf der Basis von unabhängiger Beratung und Implementierung. Dabei sollen Schwächen bestehender oder geplanter Systeme aufgedeckt und durch gezielte Verbesserungsvorschläge ein unmittelbarer Nutzen für KundInnen generiert werden. Langfristig führt dies zur Vermeidung von Risiken und Informationsverlusten und damit zu Kosteneinsparungen. Darüber hinaus bieten die ExpertInnen Leistungen zur Speicheroptimierung, die über geringere Speicherkosten ebenfalls einen unmittelbaren wirtschaftlichen Vorteil bringen.

Das Forschungsteam beschäftigt sich mit der Weiterentwicklung bestehender Content Management Systeme durch die Integration von skalierbaren Technologien zur Langzeiterhaltung. Die ExpertInnen verfügen über spezielles Know-how in den Bereichen Intensive Computing (unter Verwendung von Map/Reduce und Apache Hadoop), verteilte Bitstream-Erhaltung (unter Verwendung der LOCKSS Plattform) sowie automatische Qualitätssicherung für Digitalisierungs- und Migrationsprozesse.

Big Data

Big Data bezeichnet Datensammlungen, die für die Speicherung in traditionellen Datenbanken oder die Verarbeitung mit traditionellen Anwendungen zu groß sind. Die mit Big Data verbundenen Herausforderungen sind vielfältig und reichen von Übernahme, Management und Erhaltung bis hin zur Speicherung, Analyse und Visualisierung der Daten. Die Forschungsgruppe untersucht unterschiedliche Ansätze zur Bewältigung dieser Herausforderungen unter Einsatz von Open Source Software wie MongoDB, Apache Hadoop und NGDATA Lily. Zur Anwendung kommen diese Lösungen in verschiedenen Bereichen, etwa in der Web-Archivierung oder auch im Bereich der öffentlichen Sicherheit.

Qualitätssicherung und Empfehlungsdienste

Zur Qualitätssicherung in der Digitalisierung werden üblicherweise statistische Stichprobenverfahren eingesetzt. Diese Methoden funktionieren aus zwei Gründen nicht zufriedenstellend: erstens ist bei großen Datenmengen der Personalaufwand zur Überprüfung der Unterstichproben noch immer sehr hoch; zweitens korrelieren echte Fehler miteinander und treten nicht nach dem Zufallsprinzip auf. Ein Auffinden dieser Fehler mit statistischen Methoden ist daher unwahrscheinlich. Die Forschungsgruppe hat daher Tools wie etwa matchbox für die automatisierte Qualitätssicherung im Digitalisierungsprozess entwickelt. matchbox liefert Input für Decision Support Systeme, zeichnet sich durch hohe Detektionseffizienz und eine minimale Zahl falscher Treffer aus und gewährleistet damit die wirtschaftliche Skalierbarkeit der Qualitätssicherung.

Projects