Data Mining in der medizinischen Forschung

Die effiziente Analyse hochdimensionaler Daten im biomedizinischen Umfeld ist ein wichtiger Aspekt bei der Etablierung intelligenter Verfahren in der translationalen Medizin. Die Abteilung Bioinformatik des Fraunhofer-Instituts SCAI arbeitet eng mit klinischen Forschern in ausgewählten Indikationsgebieten zusammen zur Strukturierung verschiedener Datenquellen mittels Text Mining und zur integrierten Datenanalyse mit Hilfe von Machine Learning-Verfahren

Als Partner der translationalen, biomedizinischen Forschung arbeitet die Abteilung Bioinformatik des Fraunhofer-Instituts SCAI in großen nationalen und internationalen Forschungsprojekten mit akademischen und industriellen Forschungsgruppen zusammen. Herausragende Beispiele für solche Kooperationen sind die Projekte Neuroallianz – eine Forschungskooperation im Rahmen der vom BMBF geförderten BioPharma-Initiative Deutschland zur Entwicklung neuer Therapeutika und Diagnostika für neurodegenerative Erkrankungen, oder das von der EU im Rahmen der Innovative Medicine Initiative (IMI) geförderte Projekt AETIONOMY, dessen Ziel es ist, eine Mechanismus-basierte Taxonomier von Alzheimer und Parkinson zu entwickeln.

Die rapide Zunahme von hochdimensionalen Daten im Bereich der Biomedizin (Molekularbiologie; Gen- und Genomforschung, klinische Forschung) bringt ganz neue Herausforderungen mit sich im Bereich der intelligenten Datenanalyse und -interpretation. Fraunhofer SCAI besitzt Expertise sowohl in der Analyse von hochdimensionalen »Omics«- Daten ( beispielsweise Genexpressionsdaten), als auch in der Analyse komplexer Daten, die über verschiedene biologische Skalen – von der DNA über die zelluläre Ebene bis zum klinischen Krankheitsbild – hinweg integriert und zusammenhängend analysiert werden müssen. Dabei kommen unterschiedliche Verfahren der Statistik und des Maschinellen Lernens zum Einsatz, um signifikante Muster (»Signaturen«) und Zusammenhänge zwischen Variablen in den Daten zu erkennen und weiteren Analysen zuzuführen. Effiziente Implementierungen und eine skalierende Umgebung ermöglichen die parallele Verarbeitung von großen Datenbeständen und die (Parameter-)Optimierung der verwendeten Methoden und damit der erzielten Ergebnisse.

Eindrucksvolle Belege für die Kernkompetenz »Maschinelles Lernen« in der Abteilung Bioinformatik lieferten u.a. die sehr erfolgreiche Teilnahme an internationalen Wettbewerben, wie beispielsweise der Alzheimer's Disease Big Data DREAM Challenge 2014. Im IMI Projekt EPAD nutzt SCAI a priori Wissen kombiniert mit Patientendaten, um adaptive neue Studiendesigns für die Prävention von Alzheimer zu entwickeln. Zusammen mit dem DZNE im Projekt IDSN setzt Fraunhofer SCAI Data Mining und Reasoning-Methoden ein, um neue Krankheitshypothesen und neue Therapievorschlägen zu generieren.

In Kooperation mit der Uniklinik Bonn entwickelt SCAI neuartige Datenanalysemethoden, um in Echtzeit komplexe Datenströme zu analysieren. In der Intensivmedizin z.B. arbeitet das Institut an Methoden, um aus EKG- sowie Blutdruckechtzeitdaten automatisch Artefakte herauszufiltern und diese zudem von physiologisch begründeten Anomalien unterscheiden.

Für die Interpretation von molekularen Patientendaten, wie Daten zur individuellen Variation von Patientengenomen (SNP Daten), wird es immer wichtiger, die personalisierten Daten direkt mit dem aktuellen Stand des Wissens zu vergleichen. Dieses ‚a priori’ Wissen ist meist nur in der aktuellen Fachliteratur vorhanden und ist ohne die Unterstützung durch automatische Retrieval- und Extraktions-Verfahren kaum zu erschließen. Die von SCAI entwickelten Text Mining Methoden helfen, um relevantes Wissen aus unstrukturierten Texten zu extrahieren und in eine Form zu überführen, die den schnellen Abgleich gegen Daten ermöglicht. Die Extraktion von Informationen aus elektronischen Patientenakten und anderen klinischen Routinedaten mit Hilfe der entwickelten Text – Mining Workflows ermöglicht es SCAI darüber hinaus, so genannte »real-world data« zu extrahieren und für weitergehende Analysen strukturiert zur Verfügung zu stellen.

Im Zuge von »Big Data«-Analysen müssen heterogene, verteilte und häufig auch inkomplette Daten verknüpft und im Kontext interpretiert werden. Eine der großen Herausforderungen in diesem Bereich liegt in der Integration heterogener Primärdaten von unterschiedlichen Technologieplattformen (z.B. molekulare Daten, Biomarker Daten, Bilddaten oder klinische Daten). Die hierfür erforderliche Harmonisierung und (semantische) Interoperabilität von Daten wird durch spezielle Verfahren der Indizierung und des semantischen Mappings erreicht; diese Technologien bilden die Basis für die semantische Datenintegration, die ein »übergreifendes« Mining (inklusive der Anwendung maschineller Lernverfahren) in heterogenen Daten überhaupt erst ermöglicht.

Diese Arbeiten werden zum Beispiel im BMBF-Projekt IDSN für verschiedene Datenquellen des Deutschen Zentrums für Neurodegenerative Erkrankungen (DZNE) in Bonn gemacht. In Kooperation mit dem Uniklinikum Bonn werden weitere klinische longitudinale Daten im Bereich neurodegenerativer Erkrankungen extrahiert und anonymisiert zur Verfügung gestellt, um diese für die Datenanalyse im DZNE zugänglich zu machen.

Data Mining in der medizinischen Forschung
© Fraunhofer SCAI