


Biomedizinische Wissensgraphen spielen eine zentrale Rolle bei der Integration großer Datenmengen. Mit ihrer Hilfe lassen sich unstrukturierte Texte in ein strukturiertes, vergleichbares Format bringen. Als Ursache-Wirkungs-Modelle können Wissensgraphen potenziell die klinische Entscheidungsfindung erleichtern oder dazu beitragen, die Forschung in Richtung Präzisionsmedizin voranzutreiben. Daten- und Wissensmanagement, manchmal auch Informationsmanagement genannt, ist ein Kernthema von Data Science. Es ist auch ein interdisziplinäres Gebiet, das die Wirtschaftswissenschaften (wie effizient und teuer ist die Lösung?), die Psychologie (nutzen die Menschen diese Lösung in der beabsichtigten Weise?) und natürlich die Informatik tangiert. Unser Ziel ist der Aufbau einer nachhaltigen Dateninfrastruktur für biomedizinische Daten, personalisierte Medizin, Medikamentenneuverwendung, reproduzierbare KI und Wissensentdeckung.
Ein »Wissensgraph« (manchmal auch als semantisches Netz bezeichnet) ist ein systematischer Weg, um Informationen und Datenpunkte mit Wissen zu verbinden. Es ist somit ein entscheidendes Konzept auf dem Weg zur Erzeugung von Wissen und Erkenntnis, zur Suche in Daten, Informationen und Wissen. Die Leistungsfähigkeit von Wissensgraphen hängt jedoch entscheidend von Kontextinformationen und Datenintegration ab. Hier bieten wir einen neuartigen semantischen Ansatz für einen kontextangereicherten biomedizinischen Wissensgraphen, indem wir die Datenintegration mit verknüpften Daten nutzen. Dieses Graphenkonzept kann für die Einbettung von Graphen verwendet werden, die in verschiedenen Ansätzen angewendet werden, z.B. mit Schwerpunkt auf der Themenerkennung und Wissensentdeckung. Daher ist die Verbindung von Wissensgraphen mit dem Kontext ein Schlüsselmerkmal. In diesem Projekt wollen wir einen neuartigen systematischen Ansatz zur Wissensentdeckung unter Verwendung von Kontexten in Wissensgraphen etablieren. Dazu reichern wir die bestehenden Graphenstrukturen an und bauen einen Kontext-Hypergraphen auf.
Wir erstellen einen riesigen Proof-of-Concept-Wissensgraphen mit beschrifteten Eigenschaftsgraphen, um Graphenalgorithmen zu testen und eine praktikable Umgebung zur Anwendung von semantischen Grapheneinbettungen zu schaffen. Es handelt sich dabei um eine hoch skalierbare, cloud-basierte Service-Umgebung. Dieses dichte, groß angelegte Testsystem verfügt derzeit über 75 Millionen Knoten und 960 Millionen Kanten. Die Grundlage für die Generierung unserer groß angelegten Wissensgraphendarstellung ist die biomedizinische Literatur (z.B. aus PubMed und PMC). Wir haben auch bibliographische Daten und Metadaten aus DBLP integriert, siehe https://dblp.uni-trier.de/. Da die aus SCAIView stammenden Basisdaten bereits mit verschiedenen biomedizinischen Ontologien annotiert sind, haben wir die CSO zu den DBLP-Daten annotiert. Wir haben unsere Grafik mit Daten aus dem Offenen Datenportal der EU (CORDIS - EU-Forschungsprojekte im Rahmen von Horizon 2020) angereichert, vgl. https://data.europa.eu/euodp/en/data/dataset/cordisH2020projects). Dieser Datensatz kann sowohl für kommerzielle als auch für nicht-kommerzielle Zwecke wiederverwendet werden. Hier haben wir Projekte, ihren Status, Affiliationen, Personen und Autoren der in ihrem Datensatz erwähnten Publikationen integriert.
Download eines Ausschnitts des PHAGO Graphen
Dies ist die Grundlage für die Beantwortung von semantischen Fragen, Graphenabfragen und Erweiterungen auf der Basis von NLP, Text Mining, FAIR-Daten und ein Schritt in Richtung reproduzierbare KI. Dieser Graph ermöglicht den Vergleich von Forschungsdatensätzen aus verschiedenen Quellen sowie die Auswahl relevanter Datensätze mit Hilfe graphentheoretischer Algorithmen.