Hunderte Millionen Patient*innen warten dringend auf neue oder wirksamere Behandlung – ob Krebs, Autoimmun- oder seltene Erkrankungen. Doch Pharmaforschung dauert: In Deutschland sind es laut dem Verband der forschenden Pharma-Unternehmen (vfa) 13 lange Jahre, bis ein neues Arzneimittel auf den Markt kommt. Eine wichtige Rolle spielt dabei die Analyse von Daten aus klinischen Studien. Um Menschen in Not schneller helfen zu können, hat Bayer zusammen mit Microsoft die Data-Engineering- und Data-Science-Plattform ALYCE entwickelt. Sie ermöglicht es Bayer, klinische Studien durch künstliche Intelligenz und Machine Learning schneller und effizienter auszuwerten. Als Basis für die performante, skalierbare und richtlinienkonforme Datenanalyse dient Microsoft Azure.
Die Herausforderung: Effizienz bei der Auswertung klinischer Studien steigern
„Unser Ziel ist es, bedürftigen Patient*innen so schnell wie möglich neue Behandlungsmöglichkeiten zu eröffnen“, sagt Benedikt Egersdoerfer. Als Vice President leitet er die Abteilung Clinical Data Sciences and Analytics bei Bayer mit knapp 1.000 Beschäftigten und Externen rund um den Globus. Sein Team betreut die gesamte Wertschöpfungskette der klinischen Daten in Bayers Arzneimittelforschung. Geschwindigkeit ist aber nicht der einzige Faktor: „Zugleich sind Effizienz und Produktivität absolut kritisch für uns, denn die menschliche Gesellschaft muss sich die Arzneimittelforschung auch leisten können“, so Egersdoerfer weiter. „Alles andere würde nicht zu Bayer passen, schließlich ist unser Ziel: Hunger für niemanden, Gesundheit für alle.“
Eine Hürde auf dem Weg zum marktreifen Medikament: In der Forschung fallen Unmengen von Daten an – Tendenz massiv steigend. Denn zur klassischen Datenerfassung kommen heute in klinischen Studien viele neue Datenquellen wie Sensoren, Geräte, Drittanbieter etc. Diese Datenfülle ist nur noch mit künstlicher Intelligenz (KI) und Machine Learning (ML) zu bewältigen. Schon vor fünf Jahren erkannte das Life-Science-Unternehmen Bayer, dass sich die Verarbeitung der Studiendaten weiterentwickeln muss: „Wir wussten nicht, wo wir die wachsenden Mengen heterogener Daten speichern sollen, da wir die Größe der Datensätze nicht kannten. Zugleich fragten wir uns, woher wir die skalierbare Rechenleistung für die immer komplexere Datenverarbeitung nehmen sollen“, erzählt Egersdoerfer.
Außerdem sind die Anforderungen der Good x Practice (GxP) zu beachten, also die Richtlinien zur „guten Arbeitspraxis“ (die Variable „x“ steht für den Fachbereich): „Wenn wir in klinischen Studien erhobene Patienten- oder andere Daten für die Arzneimittelzulassung verarbeiten, müssen wir immer sicherstellen, dass die Daten durchgängig nachverfolgbar sind und unsere Systeme regulatorischen Anforderungen entsprechen“, erläutert Egersdoerfer. „Aber keines unserer Machine-Learning-Tools war ausreichend strukturiert und validiert für den Einsatz in einer GxP-Umgebung, in der wir mit sensiblen Daten von Menschen in klinischen Studien umgehen müssen.“
Der Hintergrund: Bayer betreibt, wie in Großunternehmen üblich, eine stark fragmentierte IT-Infrastruktur. „Angesichts neuer Anforderungen in Bezug auf Gerätedaten und Rechenleistung war es für uns wichtig, alles in einer skalierbaren Plattform zusammenzuführen, auf der wir Daten speichern und analysieren können“, erläutert Abi Velurethu. Er verantwortet als Vice President Clinical Data Science & Digital Solutions bei Bayer den Bereich Technology & Application Management.
Deshalb startete Bayer Ende 2019 das Projekt ALYCE (Advanced Analytics Platform for the Clinical Data Environment), um eine performante, skalierbare Lösungsarchitektur zu finden. Mit Abi Velurethu als Projektsponsor und Holger Dach, Data Science & Analytics Technology and Application Manager bei Bayer, als Business Lead ermittelte das Projektteam drei initiale Anwendungsfälle: 1. Remote Data Collection, also die Datenerfassung aus zahlreichen verteilten Datenquellen; 2. Pattern Recognition, also KI-gestützte Mustererkennung; 3. Medical Insights Review & Analytics (MIRA), die effiziente Auswertung von Studiendaten mittels automatisierter Abläufe und interaktiver Dashboards (Visualisierungen). Nach intensiver Prüfung hausinterner Bestandslösungen entschied sich das Team für eine öffentliche Ausschreibung. Es lud zehn Anbieter zu Produktvorstellungen ein, gefolgt von drei Monaten mit Produktdemos der vier bestbewerteten Anbieter. Ende 2020 fiel die Wahl des Projektteams auf Microsoft.
Die Lösung: Machine Learning-gestützte Datenanalysen auf Basis von Microsoft Azure
Um die hohen Anforderungen von Bayer an die sichere Datenerfassung, -haltung und -analyse abzubilden, wählte das Projektteam eine Lösungsarchitektur, die auf der Microsoft Intelligent Data Platform basiert, mit Datenhaltung in Azure Data Lake. Die Azure-Werkzeuge für SecDevOps – also das Ineinandergreifen von Sicherheit, Entwicklung und IT-Betrieb – ermöglichen es dabei, Abläufe zu automatisieren und zu industrialisieren. Neben den Core Infrastructure Services und dem Data Lake sind die ALYCE-Kernkomponenten: Azure Synapse Analytics, Azure Databricks und Data Factory, Azure Active Directory, Purview, Azure Kubernetes Service sowie Power BI für die Visualisierung. Bayer nutzt zudem Drittanbieterlösungen wie SAS oder Tibco. „Mit Azure können wir unterschiedlichste Arten von Daten einbringen“, sagt Velurethu. „Ebenso wichtig waren uns die Programmierschnittstellen der Plattform. Sie erlauben es uns, externe Analyseanwendungen, Dashboards und Programmierwerkzeuge einzubinden.“
„Azure bietet hochintegrierte Plattformdienste, aber es gibt immer die Option, etwas hinzuzufügen“, ergänzt sein Kollege Holger Dach. „Einer der größten Vorteile von Azure besteht für uns darin, dass alle seine Komponentendienste nach dem Azure Security & Compliance Blueprint für HIPAA qualifiziert eingerichtet werden können und diese Dienste vollautomatisch und zuverlässig funktionieren. Wir können sie einfach konfigurieren, um unsere Anwendungsfälle zu unterstützen. Azure spart uns viel Zeit und Geld, da wir unseren Qualifizierungsprozess und die abschließenden Validierungsaktivitäten beschleunigt haben. Das gibt uns die Möglichkeit, uns selbst auf die geschäftlichen Herausforderungen der Daten zu konzentrieren, was ein entscheidender Vorteil ist.“
“Mit Azure beschleunigen wir unseren Qualifizierungs-Prozess und die finalen Validierungsaktivitäten, was ein entscheidender Vorteil ist.”
Holger Dach, Data Science & Analytics Technology and Application Manager, Bayer
Die Mustererkennung kommt seit November 2021 in klinischen Studien zum Einsatz, die Remote-Datenerfassung seit März 2022. Erste MIRA-Datenvisualisierungen sind seit Sommer 2022 fertig: „Für unsere Onkologie-Einheit haben wir interaktive Dashboards entwickelt. Sie machen die Überprüfung von Tumorreaktionen in unseren klinischen Studien sehr interaktiv, was vorher nicht möglich war“, sagt Egersdoerfer. „ALYCE hat diesen Prozess eindeutig beschleunigt.“
Auch an anderer Stelle sorgt ALYCE für zügigen Erkenntnisgewinn: „Die Plattform weist uns auf unerwünschte Ereignisse, fehlende Daten oder Informationen hin, die möglicherweise nicht korrekt gemeldet wurden“, erklärt Egersdoerfer. Dach nennt ein Beispiel: „Es war bislang sehr schwierig, bei klinischen Studien Ausreißer in Zeitreihen zu erkennen. Wenn aber nun die Analysesoftware aufzeigt, dass ein Patient bei einer Messung plötzlich 30 kg ab- und kurz darauf wieder zugenommen hat, dann stimmt offenbar etwas nicht.“ Neben der Datenbereinigung erleichtert es die ML-Technologie laut Egersdoerfer auch, Risiken zu erkennen: „Wir können nun Betrug und Fehlverhalten in Studien aufdecken, etwa dass ein Patient an zwei Studien teilgenommen hat, obwohl dies nicht zulässig ist.“ Dann kann Bayer Fachleute beauftragen, den Vorfall vor Ort zu untersuchen.
Die Vorteile: Beschleunigte Erkenntnisse für effizientere Forschung
„ALYCE hilft uns, Abläufe und damit letztlich auch unsere Innovationen zu beschleunigen“, so Egersdoerfer. „Die ursprünglichen Ziele der Use-Cases haben wir vollständig erreicht, teils sogar übererfüllt.“ Denn die externe Datenaufnahme war ursprünglich nicht Teil des Projekts. „Bayer hatte eine andere Lösung im Einsatz, aber mit Azure war es einfacher, externe Daten einzulesen. Das war für mich persönlich das Tüpfelchen auf dem i“, sagt er.
“Die Reise, die wir mit ALYCE und der Partnerschaft mit Microsoft begonnen haben, bringt uns neue Fähigkeiten, um zukünftige Anforderungen zu erfüllen. Dies ist ein sehr großer Gewinn.”
Abi Velurethu, Vice President Clinical Data Science & Analytics, Bayer
Entsprechend zuversichtlich blickt das Projektteam in die Zukunft: „Mit ALYCE sehe ich die Chance, dass eine fragmentierte Infrastruktur zwanglos zu einer zentralen Technologieplattform zusammenwächst“, sagt Egersdoerfer. „So können wir uns auf die komplexen Daten konzentrieren statt auf komplexe Technologie.“ Und Velurethu erklärt: „Die Reise, die wir mit ALYCE und der Partnerschaft mit Microsoft begonnen haben, bringt uns neue Fähigkeiten, um zukünftige Anforderungen zu erfüllen. Dies ist ein sehr großer Gewinn.“
Letztlich profitieren nicht nur Bayer-Beschäftigte von der Plattform, sondern vor allem auch die Menschen, für die Bayer seine Forschung betreibt: „Der Beitrag unseres Teams“, so Egersdoerfer, „besteht darin, dass wir die für die Arzneimittelzulassung erforderlichen Daten mittels ALYCE so schnell und effizient liefern, wie es heute möglich ist.“
“Mit ALYCE sehe ich die Chance, dass eine fragmentierte Infrastruktur zwanglos zu einer zentralen Technologieplattform zusammenwächst. So können wir uns auf die komplexen Daten konzentrieren statt auf komplexe Technologie.”
Benedikt Egersdoerfer, Vice President, Head of Clinical Data Sciences and Analytics, Bayer
Microsoft folgen