UIMA-HPC

Auf der Suche nach der richtigen Strategie zur Synthese

Gemeinsam mit dem Industriepartner Taros Chemicals hat Fraunhofer SCAI im vom Bundesministerium für Bildung und Forschung geförderten Projekt UIMA-HPC die Herausforderung gemeistert, unter Millionen von Patenten das Dokument herauszufiltern, welches das genaue Syntheseprotokoll für eine gesuchte Substanz beschreibt.

Für ein Auftragsprojekt sollte ein geeigneter Fotoentwickler hergestellt werden. Die Suche in strukturierten chemischen Spezialdatenbanken ergab keinerlei brauchbaren Treffer, dagegen führte eine schnelle stichwortbasierte Suche in Google Patents zu 452 interessanten Dokumenten. Diese Patente, die in unterschiedlichen Sprachen verfasst sind, lassen sich als PDF-Dateien bei den Patentämtern bestellen, müssen dann aber anschließend vom Chemiker mühsam in Kleinarbeit durchsucht und aufgearbeitet werden. Fragestellungen sind hierbei:

  • Welche Stoffe werden darin beschrieben?
  • Welche Eigenschaften haben diese Stoffe?
  • Wie lassen sich diese Stoffe herstellen?

Das klingt nach einer reinen Fleißarbeit, ist aber in der Praxis sehr schwierig und zeitaufwändig, da Patente wenig strukturiert und Sachverhalte sehr komplex aus Sicht des Patentanwalts und nicht des Chemikers beschrieben sind.

Mit Hilfe der im UIMA-HPC Projekt entwickelten Technologien konnten die Dokumente automatisch OCRed, das heißt mittels Optical Character Recognition digitalisiert und analysiert, und dann in die einzelnen Bausteine wie Patentansprüche, Stand der Technik, chemische Strukturzeichnungen, Syntheseprotokolle, Querverweise und Referenzen zerlegt werden. Mit Hilfe des extra entwickelten Analyse-Werkzeugs »Interfacer« war der chemische Experte in der Lage, in einem Vormittag die gewünschte Synthese in einem Patent von 1984 zu identifizieren und einen genauen Laborauftrag zu spezifizieren. Der Interfacer erlaubt es, die aufbereiteten Patente zu durchsuchen, zu klassifizieren oder quer zu verknüpfen (welches Dokument zitiert welche anderen Dokumente). Chemische Abbildungen lassen sich übersichtlich in einer Tabelle darstellen und durchsuchen, und man kann direkt an die richtige Stelle im Dokument springen.

Das Förderprojekt UIMA-HPC ist erfolgreich im Sommer 2014 abgeschlossen worden; Taros und SCAI verfolgen nun eine gemeinsame Verwertung.

Hinweis
Apache UIMA, UIMA sind registrierte Marken der Apache Software Foundation.