Gemeinsam mit dem Industriepartner Taros Chemicals hat Fraunhofer SCAI im vom Bundesministerium für Bildung und Forschung geförderten Projekt UIMA-HPC die Herausforderung gemeistert, unter Millionen von Patenten das Dokument herauszufiltern, welches das genaue Syntheseprotokoll für eine gesuchte Substanz beschreibt.
Für ein Auftragsprojekt sollte ein geeigneter Fotoentwickler hergestellt werden. Die Suche in strukturierten chemischen Spezialdatenbanken ergab keinerlei brauchbaren Treffer, dagegen führte eine schnelle stichwortbasierte Suche in Google Patents zu 452 interessanten Dokumenten. Diese Patente, die in unterschiedlichen Sprachen verfasst sind, lassen sich als PDF-Dateien bei den Patentämtern bestellen, müssen dann aber anschließend vom Chemiker mühsam in Kleinarbeit durchsucht und aufgearbeitet werden. Fragestellungen sind hierbei:
Das klingt nach einer reinen Fleißarbeit, ist aber in der Praxis sehr schwierig und zeitaufwändig, da Patente wenig strukturiert und Sachverhalte sehr komplex aus Sicht des Patentanwalts und nicht des Chemikers beschrieben sind.
Mit Hilfe der im UIMA-HPC Projekt entwickelten Technologien konnten die Dokumente automatisch OCRed, das heißt mittels Optical Character Recognition digitalisiert und analysiert, und dann in die einzelnen Bausteine wie Patentansprüche, Stand der Technik, chemische Strukturzeichnungen, Syntheseprotokolle, Querverweise und Referenzen zerlegt werden. Mit Hilfe des extra entwickelten Analyse-Werkzeugs »Interfacer« war der chemische Experte in der Lage, in einem Vormittag die gewünschte Synthese in einem Patent von 1984 zu identifizieren und einen genauen Laborauftrag zu spezifizieren. Der Interfacer erlaubt es, die aufbereiteten Patente zu durchsuchen, zu klassifizieren oder quer zu verknüpfen (welches Dokument zitiert welche anderen Dokumente). Chemische Abbildungen lassen sich übersichtlich in einer Tabelle darstellen und durchsuchen, und man kann direkt an die richtige Stelle im Dokument springen.
Das Förderprojekt UIMA-HPC ist erfolgreich im Sommer 2014 abgeschlossen worden; Taros und SCAI verfolgen nun eine gemeinsame Verwertung.
Die unglaubliche und weltweit ständig wachsende Fülle von Fachartikeln, Patenten und anderen Nachrichtenquellen (wie z.B. Blogs) ruft sozusagen nach einem automatischen Lesen und Auswerten. So enthält die Literaturreferenzdatenbank PubMed derzeit mehr als 20 Millionen Einträge auf dem biologisch-pharmakologischen Gebiet. Hier stößt die menschliche Fähigkeit, sich einen schnellen Überblick zu verschaffen, an ihre Grenzen. Die Idee dieses Projektes ist, Verfahren zu entwickeln, das bestehende Wissen in unstrukturierten Quellen schnell und effizient für neue Fragestellungen nutzbar zu machen.
Die Herausforderung in diesem Projekt ist die volle Breite der Quellen-Formate: Texte und Bilder, Spalten und Bildunterschriften, Tabellen und Diagramme, Kolumnen und Blogs, die alle automatisch, aber mit Sinn und Fachverstand interpretiert werden sollen. Deshalb werden neue Methoden der rechnerunterstützten Informationsextraktion benötigt, um Wissenschaftlern relevante Information in kompakter und strukturierter Form zur Verfügung zu stellen, welches über reine Stichwortsuchen hinausgeht:
»Sind Strukturvariationen um dieses Grundgerüst in der Literatur bereits erwähnt worden und wenn ja: gibt es Hinweise auf deren Wirkungen (z.B. toxische oder unerwartete Wirkungen)?«; »Sind die Strukturvariationen mit Rechten Dritter belastet bzw. kann ich hierauf freien Zugriff erhalten?«; »Welche Unternehmen oder Forschergruppen beschäftigen sich seit wann und mit welcher Stoßrichtung auf meinem Arbeitsgebiet?«
Inbesondere spielt der Zeitfaktor bei der automatischen Verarbeitung eine wesentliche Rolle und erfordert deshalb eine neue Herangehensweise, welche sich moderne Rechnerarchitekturen (Mehrkernsysteme) zu nutze macht.
Die Partner – das Fraunhofer SCAI, das Jülich Supercomputing Centre, die Taros Chemicals GmbH & Co KG und die scapos AG – wollen das quasi Standardprotokoll für die Informationsextraktion UIMA in ein HPC Framework (UNICORE) einbetten, welches die effiziente Parallelisierung (Rechenzeit und Datenfluss) gewährleistet. UIMA (englisch: Unstructured Information Management Architecture) erlaubt ganz allgemein das Durchmustern von digitalen Datenströmen (Text, Audio, Bild, Video) nach Informationen.
Durch UIMA-HPC wird eine neue Klasse von Anwendungen für das Hoch- und Höchstleistungsrechnen (englisch: high performance computing – HPC) erschlossen. Mit dem neuen System für die vollständige und zeitnahe Informationsextraktion können Anwender, die bisher keinen Zugang zu HPC Ressourcen haben, diese nutzen. Die erworbene Expertise und das entwickelte System sollen Kunden als Dokumentenprozessierungsservice angeboten werden.
Hinweis: |
---|
Apache UIMA, UIMA sind registrierte Marken der Apache Software Foundation. |