Data Science

Digital Insight Lab

Die Forschungsgruppe Digital Insight Lab hat sich seit ihrer Gründung 2003 sehr erfolgreich entwickelt. Unter ihrem ursprünglichen Namen Digital Memory Engineering (DME) konzentrierte sich die Gruppe zunächst auf domänengetriebene Forschung. Sie befasste sich mit den Anforderungen digitaler Bibliotheken und entwickelte maßgeschneiderte technische Lösungen für diese Anwendungsdomäne.

Im Vordergrund stand zu Beginn die Entwicklung neuer Methoden für den Zugriff auf das digitale Kulturerbe und danach unter dem Stichwort “Digital Preservation” die damit verbundenen Herausforderungen der Speicherung und Archivierung digitaler Informationen über längere Zeiträume (Jahrhunderte) hinweg. Darauf folgte eine Reihe erfolgreicher Projekte, unter anderem das von AIT koordinierte Leitprojekt SCAPE, das sich mit der Langzeitspeicherung von digitalen Daten befasste. Die im Rahmen von SCAPE erzielten Projektergebnisse umfassten unter anderem skalierbare Workflows sowie innovative Tools zur Charakterisierung und Qualitätssicherung.Im Laufe der Jahre wurde allerdings klar, dass die Forschung auf diesem Gebiet über das reine "Content Management" hinausgeht. Während Partner und Kunden weiterhin mit den Problemen einer exponentiell ansteigenden Menge digitaler Ressourcen konfrontiert sind, befasst sich die Forschung immer stärker mit der Frage, wie aus diesen Daten Wissen und Mehrwert generiert werden können. Diese Anforderungen und das Ziel der Forschungsgruppe, sich von einem domänengetriebenen zu einem technologiegetriebenen Ansatz zu entwickeln, führten zur Definition des Forschungsschwerpunkts "Data Science". Das Zukunftsgebiet "Data Science" zielt darauf ab, durch die Anwendung quantitativer Methoden und Techniken auf skalierbare Datenverarbeitungs- und Analyse-Infrastrukturen neue Erkenntnisse aus Daten zu gewinnen. Im Vordergrund steht dabei angewandte, datenzentrierte Forschung entlang des gesamten Datenlebenszyklus – von der Problemformulierung über Datenaggregation, Analyse und Visualisierung bis hin zur Publikation von Datensätzen für Zwecke der Wiederverwendung und Reproduzierbarkeit.

In der Forschung zum Thema Data Science ist die Gruppe mit Herausforderungen konfrontiert, die eine Kombination unterschiedlicher Kompetenzen aus den Bereichen Informatik, Statistik und User Experience Design erfordern:

  • die Fähigkeit, große Datenmengen und Algorithmen mit Hilfe von Hochleistungsrechner-Clustern und Cloud-basierten Infrastrukturen zu verarbeiten
  • das für die Anwendung, Anpassung und Bewertung prädiktiver Analysetechniken erforderliche Know-How
  • die Kreativität zur Entwicklung leistungsfähiger Visualisierungen und User-Interaktionen
  • die Kompetenz zur Anwendung moderner Strategien für Datenpublikation und Langzeitspeicherung, um eine effiziente Wiederverwendung von Datensätzen über längere Zeiträume hinweg sicherzustellen