
Die Gruppe Software und Scientific Computing beschäftigt sich mit der Entwicklung von Algorithmen und Software-Werkzeugen zum schnellen Auffinden und Explorieren von Wissen in strukturierten und unstrukturierten frei verfügbaren Quellen. Beim Stöbern in der wissenschaftlichen Literatur, der Recherche in Datenbanken oder dem Browsen von Online-Medien fragt man sich häufig »Kann das sein?« oder »Was ist eigentlich der aktuelle Stand des Wissens?«. Nutzt man Portale, um das Web zu durchsuchen, muss man sich durch lange Ergebnislisten wühlen. Wir forschen an verteilten Informationssystemen, die solche Fragen ad hoc beantworten sollen. Das geht weit über stichwortbasierte Suchen hinaus. In unserem Data Center sind sowohl strukturierte Datenbanken (etwa zu Proteinen, Chemikalien, Wirkstoffen, klinischen Studien) als auch riesige unstrukturierte Dokumentensammlungen (beispielsweise Forschungsartikel, Patente, Beipackzettel) integriert. Das Ziel ist die Vernetzung unterschiedlicher Quellen über die Erkennung und Normalisierung von Konzepten und deren Beziehungen zu hochkomplexen Wissensgraphen. Wir nutzen dazu moderne Verfahren der Informationsextraktion, um mit Hilfe von Terminologien und Ontologien automatisch Nennungen von Konzepten (inklusive Synonymen und Abkürzungen) zu finden und diese in Beziehung zu setzen (Relation Mining). Das so gesammelte Wissen wird in föderierten Graphdatenbanken abgelegt und lässt sich so von Experten aus den Anwendungsfeldern (zum Beispiel Biomedizin, Pharmazie, Chemie, Biotechnologie) abfragen. Wir setzen dabei auf moderne Big-Data-Architekturen, Open-Source-Software-Lösungen (etwa Kubernetes, Apache Spark, Apache UIMA, Apache Spring, REACT) und Schnittstellen (etwa OpenAPI, OAuth), die wir anpassen und erweitern.