Volume 47, Issue 6 pp. 334-335
Editorial
Free Access

Chemie auf der Spitze des Eisbergs: Zu viele Forschungsdaten gehen bislang unter!

First published: 06 December 2013

Graphical Abstract

Chemie auf der Spitze des Eisbergs: Zu viele Forschungsdaten gehen bislang unter!

Ohne die Erkenntnisse und Vorarbeiten der Kollegen kommen Chemiker schnell an einen Punkt, an dem die eigene Forschung stagniert. Wer sich synthetisch nicht nur auf seinem absoluten Fachgebiet bewegt, ist unbedingt auf den Zugang zu Datenbanken und Journalen angewiesen. Das Wissen um die detaillierten Ergebnisse anderer Forscher ermöglicht eine Beschleunigung der eigenen Arbeit, eine Abschätzung des Möglichen und eine Erweiterung des eigenen Horizontes.

Doch das chemische Wissen als wichtigste Basis der synthetischen Forschung und Nachnutzung wird noch immer nicht systematisch gepflegt und archiviert. Der Verlust von Informationen beginnt bereits bei der Dokumentation der Ergebnisse im Labor und setzt sich über das Management der Reaktionen bis hin zur Publikation und der Auffindbarkeit der Forschungsergebnisse fort. Dies zeigt sich am deutlichsten durch einen Vergleich der Daten, die während einer Synthese generiert werden und theoretisch verfügbar wären, mit den Informationen, die nach der Publikation für andere Wissenschaftler tatsächlich sichtbar sind.

Schlechte Ausbeute: Datenerhebung in der chemischen Synthese

Die meist komplexen Arbeitsschritte während einer Synthese zeichnen sich durch die Benutzung verschiedener Labor- oder Analysegeräte an verschiedenen Orten des Labors aus und setzen eine händische Dokumentation der Vorgehensweise während einer Synthese voraus. Dem Forscher obliegt die Verantwortung, die wesentlichen Werte zu erfassen und korrekt anzugeben. Unabhängig von zeitlichem Druck und der Bearbeitung mehrerer Projekte muss jederzeit gewährleistet sein, dass keine Verwechslungen entstehen, sowie alle Daten korrekt abgelesen, notiert und dokumentiert werden.

Nur wenige Initiativen versuchen, die bisherige Vorgehensweise zu optimieren und durch moderne Techniken, die bereits als Stand der Technik unser alltägliches Leben bestimmen, die Erfassung der Daten zu automatisieren. Meist entstehen solche Projekte jedoch als Initiative aus der Industrie und können auch nur dort genutzt werden.

In der akademischen Forschung gibt es leider sehr viele Beispiele, die deutlich machen, wie zurückhaltend die automatisierte Datenerhebung umgesetzt wird. Dieser Kommentar wirkt etwas ironisch, da die Welt um uns herum eher ein Problem mit übertriebener Vernetzung und Datenweitergabe zu haben scheint. Möglichkeiten, die fehlende Laborvernetzung zu korrigieren, gäbe es viele. Neben kommerziellen Anbietern für Laborinformationsmanagement-Systeme (LIMS) treten auch mehr und mehr Open Source-Varianten auf, doch genutzt werden sie leider wenig. Ebenso wenig sind meist bisher elektronische Laborjournale (ELN) etabliert.

Wenig Aufmerksamkeit: Datenmanagement im Labor

Nach der Datenerhebung müssen die erhaltenen Informationen nicht nur fehlerfrei aufgezeichnet, sondern auch korrekt einem Projekt oder einer Synthese zugeordnet sowie strukturiert gespeichert und zugänglich gemacht werden. Informationen, die nicht allgemein verständlich und lesbar abgelegt sind oder deren Zugang nicht auch für Nachfolger des Projektes gesichert ist, sind schon fast verloren. Nur wenige Universitäten verfügen bisher über ein Syntheseinformationsmanagement, was die Daten der Forscher auf Dauer zugänglich macht, obwohl diese Informationen die Grundlage aller Forschungsprojekte bilden. Doch der Umgang mit Daten und chemischen Informationen innerhalb einer Forschergruppe ist nur eine Ursache der Nicht-Verfügbarkeit von Datensätzen.

Von traditionellen Strukturen geprägt: Veröffentlichung der Daten

Ein weiterer großer Teil an Information geht bei der Verwertung durch das bisher noch sehr traditionell ausgerichtete Publikationsverhalten der chemischen Gemeinschaft verloren. Die Kernfragen lauten hier: Wo publizieren chemische Forscher und wo nicht bzw. was wird publiziert und was nicht?

Das Wo ist schnell beantwortet: Forschungsergebnisse werden fast ausschließlich über Journale mit Peer Reviewing weitergegeben. Informationen, die den Anforderungen nicht genügen, werden nicht veröffentlicht und auch nicht in Datenbanken aufgenommen. Darüber hinaus findet kaum eine systematische, dokumentierte Kommunikation oder Diskussion von Ergebnissen statt. Und welche Daten werden publiziert? Leider gibt bisher keinen einheitlichen Standard, der die Voraussetzungen zur Publikation chemischer Datensätze definiert. So finden sich in der Literatur immer wieder Synthesevorschriften ohne Standardanalytik. Auch sind Verweise auf Verweise üblich, die den Forscher hin zu einem Datensatz führen, der häufig zu veraltet ist, um das benötigte Analysenspektrum abzudecken. Unter diesen Voraussetzungen scheinen ergänzende Plattformen, die konstruktiv die Kommentierung und Verbesserung der publizierten Verfahren ermöglichen, durchaus sinnvoll. Warum werden dann die bisherigen Formate wie SyntheticPages [(1)] oder auch die DOI-Registrierung für einzelne Forschungsdaten [(2)] nicht oder nur sehr zurückhaltend genutzt? Schon kleine Veränderungen in der Publikationstradition wären hilfreich, um die dem Forscher präsenten Informationen auch der Leserschaft in vollem Umfang zur Verfügung stellen zu können. Nach ähnlichen Überlegungen könnten auch Primärdaten Einzug in die Publikationsstandards erhalten.

Die Suche nach Forschungsergebnissen

Auch könnten solche offenen Datenbanken die Sichtbarkeit und Auffindbarkeit von Reaktionsdatensätzen verbessern. Die bisherigen Hindernisse werden nicht nur bei Ergebnissen aus Diplomarbeiten und Doktorarbeiten deutlich, die zwar neu und als Struktur- oder Syntheseinformation von Bedeutung sind, die aber nicht den Weg in ein Journal finden. Diese Daten geraten in Vergessenheit, da selbst bei Veröffentlichung im World Wide Web meist nicht nach der Struktur gesucht werden kann. Bisher gibt es für solche Daten keine Verwertungsstrategie und der Zugriff auf diese Informationen bleibt meist den Forschern der eigenen Institution vorbehalten.

Einige richtungsweisende Entwicklungen haben in den letzten Jahren die Möglichkeiten der (chemischen) Forscher erweitert. Hierzu zählt die bereits erwähnte kostenlose DOI-Registrierung zur Sicherung von Forschungsdaten. Auch existieren Web-Portale wie eChemPortal (Bericht Chemie in unserer Zeit 2011) [(3)], ChemSpider [(4)], ResearchGate [(5)], oder auch PubPeer [(6)], allerdings scheinen diese Kommunikationsmittel zur Informationsweitergabe erst sehr langsam an Popularität zu gewinnen.

Für die Synthesechemie und viele andere Bereiche gehen seit vielen Jahren Informationen verloren, die für alle Forscher von Bedeutung sind und die Forschung beschleunigen könnten, sofern sie denn verfügbar wären. Liegt es nicht in der Verantwortung des Forschers, die Ergebnisse der meist durch die öffentliche Hand geförderten Projekte optimal zu dokumentieren auch dann gut auffindbar zu machen?

Die technischen Möglichkeiten der heutigen Zeit erlauben die automatische Nachverfolgung und Dokumentation aller Schritte im Labor (z.B. über Barcodes), die Speicherung der Ergebnisse, den Integritätsnachweis einzelner Daten sowie die intelligente Verwaltung in einem LIMS und/oder ELN der erhaltenen Informationen. Auch gibt es moderne Möglichkeiten zur Publikation und Sichtbarmachung der Ergebnisse. Wenn man die zuvor genannten Aspekte betrachtet, drängt sich die Frage auf: warum nutzen Chemiker ihre Möglichkeiten nicht, um auch die bisher nicht verfügbaren Informationen zugänglich zu machen? Warum entwickelt sich die Infrastruktur in den chemischen Forschungslaboren nicht weiter, während in allen anderen Bereichen der technische Fortschritt zu einer wesentlichen Vereinfachung und Verbesserung führt? Warum konnte ein so wichtiger Bereich wie die Forschung hier bis jetzt in vielen Fällen nicht vom modernen Fortschritt profitieren?

Nicole Jung und Dominic Lütjohann

image

Nicole Jung ist akademische Rätin am Institut für Organische Chemie des KIT und arbeitet im Bereich kombinatorische Chemie.

Dominic Lütjohann entwickelt – ebenfalls am KIT – interdisziplinäre Lösungen für Laborautomation und Life Science Informatik.

    The full text of this article hosted at iucr.org is unavailable due to technical difficulties.