Bis zu 20 Prozent der Unterhaltungen in sozialen Medien drehen sich um Gesundheitsthemen. Onlineforen und Social-Media-Plattformen können daher hilfreich sein, um ungedeckte medizinische Bedürfnisse ausfindig zu machen – und das Leben von Patienten zu verbessern.
Von Jonathan Koß und Prof. Dr. Sabine Bohnet-Joschko
Die medizinischen Bedürfnisse von Patienten zu berücksichtigen, ist längst kein „Nice-to-have“ mehr, sondern entscheidend für den kommerziellen Erfolg pharmazeutischer Produkte. Grund dafür sind einerseits regulatorische Veränderungen, die darauf abzielen, den wahrgenommenen Nutzen aufseiten des Patienten in die Bewertung von Arzneimitteln aufzunehmen. Beispiele dafür sind der Einbezug von Patient-Reported-Outcomes in Zulassungs-, Erstattungs- und Preissetzungsverfahren oder die Patient-Centered-Drug-Development Initiative der FDA: Hier sollen Patienten den potenziellen Nutzen eines Medikaments für ihr Krankheitsbild im Rahmen des Zulassungsprozesses bewerten. Andererseits wird es immer schwieriger, traditionelle Endpunkte, die schon seit Jahrzehnten optimiert wurden, stetig weiter zu verbessern. Diese Entwicklung schlägt sich in Eroomes Law nieder. Eroomes Law beschreibt die Beobachtung, dass sich die Anzahl der neu zugelassenen Arzneimittel pro Milliarde US-Dollar Entwicklungskosten seit 1950 etwa alle neun Jahre halbiert hat.
TRADITIONELLE MARKTFORSCHUNG IST TEUER
Eine Strategie zur Verminderung des finanziellen Risikos des Arzneimittel-Entwicklungsprozesses ist es, einen bestehenden hohen, ungedeckten medizinischen Bedarf schon zu Beginn eines jeden Projektes zu identifizieren und zu adressieren. So soll sichergestellt werden, dass, durch das zukünftig entwickelte Arzneimittel, ein relevanter Mehrwert zum bestehenden Versorgungsstandard geschaffen wird, der letzten Endes auch einen kommerziellen Erfolg begünstigt. Je nach Krankheit kann dieser ungedeckte medizinische Bedarf unterschiedlich sein. Ist ein ungedeckter Bedarf die Heilung für eine schwer zu behandelnde Krankheit? Eine Linderung der Symptome? Eine Verbesserung der Lebensqualität? Und gilt dies für die gesamte Population oder lediglich eine Subpopulation in einer bestimmten Region?
Ungedeckte medizinische Bedürfnisse zu erheben, ist zeitaufwendig und kostenintensiv. Das gilt insbesondere im Bereich seltener Erkrankungen, die aufgrund der bisherigen Vernachlässigung einen hohen ungedeckten medizinischen Bedarf vermuten lassen. Hierbei sind traditionelle Methoden der Marktforschung, beispielsweise Fokusgruppen-Interviews, mit einem hohen Aufwand verbunden. Gleichzeitig sind viele relevante Informationen bereits im Internet verfügbar. Die meisten Menschen nutzen das Internet regelmäßig, um sich über gesundheitsbezogene Themen zu informieren. Bis zu 20 Prozent der Unterhaltungen in sozialen Medien drehen sich um Gesundheitsthemen. Insbesondere Chroniker diskutieren über Medikamente und Behandlungen in Onlineforen und auf Social-Media-Plattformen. Die Informationen und Meinungen, die im Internet geteilt werden, bieten Zugang zu Daten, die zuvor nicht verfügbar waren. Die Auswertung dieser Daten ermöglicht es der Pharmaindustrie, aus den Erkenntnissen zu lernen und zum Beispiel herauszufinden, was das Leben der Patienten wirklich beeinflusst – und verbessern würde.
EFFIZIENTE NUTZUNG VON SOCIAL-MEDIA-DATEN
Doch wie lassen sich diese riesigen Datenmengen effizient auswerten? Die automatisierte, oft KI-gestützte Verarbeitung von Social-Media-Daten wird auch Social Media Mining genannt. Der Ablauf der Informationsgewinnung besteht hierbei in fünf Schritten: die Auswahl einer oder mehrerer geeigneter Datenquellen, der Datenextraktion, der Vorverarbeitung der Daten und der anschließenden Analyse sowie der Evaluation der Ergebnisse. Als geeignete Datenquellen eignen sich kommerzielle und weitverbreitete soziale Medien wie Twitter oder Facebook und nicht kommerzielle, krankheitsspezifische Onlineforen.
QUALITÄTSAUSLESE VON ONLINEPOSTS
Es bestehen grundlegende Unterschiede in der Datenqualität zwischen diesen Plattformen. Kommerzielle Social-Media-Plattformen erwirtschaften ihre Erlöse größtenteils mit Werbung – dies kann zu Verzerrungen durch Werbeinhalte sowie die zugrunde liegenden verhaltenssteuernden Algorithmen führen. Im Gegensatz zu kommerziellen sozialen Medien sind Beiträge in Online-Gesundheitsforen überwiegend frei von Werbung und enthalten umfassendere Informationen über den Patienten, beispielweise seinen bisherigen Krankheitsverlauf. Sobald eine oder mehrere Plattformen mit einer angemessenen Datenqualität identifiziert wurden, werden die Daten mittels Web Scraping extrahiert. Die Komplexität der anschließenden Datenvorverarbeitung ist von der Datenqualität abhängig, sodass die Analyse großer sozialer Medien oft aufwendiger ist. In den meisten Anwendungsfällen ist jedoch eine Umwandlung der unstrukturierten Textdaten in ein strukturiertes Format mittels Methoden des Natural Language Processing notwendig. Beispielsweise können bestimmte Symptome oder Medikamente aus einem Post extrahiert werden, um später die gezielte Analyse zu unterstützten. Die Analyse erfolgt zumeist durch Methoden des überwachten oder unüberwachten Maschinellen Lernens.
Die Auswahl der Methode sowie die Evaluation der Ergebnisse ist abhängig vom Anwendungsfall. In einer ersten Machbarkeitsstudie im Rahmen des Atlas-Projekts, angesiedelt an der Universität Witten/Herdecke, wurde untersucht: Lassen sich die ungedeckten medizinischen Bedürfnisse von Multiple-Sklerose-Patienten aus Onlineforen automatisiert extrahieren und gegebenenfalls priorisieren? Die ungedeckten medizinischen Bedürfnisse wurden mithilfe des sogenannten Topic Modeling extrahiert. Topic Modeling ist ein Überbegriff für Algorithmen, die latente Themen in Texten identifizieren können. Es zählt zu den Methoden des unüberwachten Lernens. Dabei wird ein Thema durch eine Kombination von Schlüsselwörtern beschrieben, die das Thema am besten repräsentieren. Nach Abgleich der identifizierten Themen mit bestehender Literatur stellte sich heraus: Durch das Topic Modeling ließ sich eine Vielzahl relevanter medizinischer Bedürfnisse finden.
ALGORITHMUS WERTET BEDÜRFNISSE AUS
Anschließend wurde ein Algorithmus zur Priorisierung entwickelt. Die grundlegende Logik hinter dem Algorithmus ist: Ein Bedürfnis, das besonders wichtig und gleichzeitig mit einer hohen Unzufriedenheit des Patienten assoziiert ist, bietet aus Sicht des Patienten ein besonders hohes Innovationspotenzial. Um die Wichtigkeit eines Bedürfnisses abzubilden, wurde die Häufigkeit, mit der ein Thema im Text genannt wird, ermittelt. Um die (Un-)Zufriedenheit zu messen, wurde eine Sentiment-Analyse durchgeführt. Die Priorisierung, die aus dem Algorithmus resultierte, zeigte hohe Übereinstimmungen mit analogen Studien im Bereich von ambulanten MS-Patienten. Beispielsweise wurden die Themen Schmerz, Schlafstörung und Fatigue sowie Depression und Angststörungen als besonders hohe ungedeckte medizinische Bedürfnisse priorisiert. Die Ergebnisse zeigen jedoch auch die Grenzen für die Auswertung von Daten aus sozialen Netzwerken auf. Patienten mit starken visuellen oder kognitiven Einschränkungen werden kaum in sozialen Medien untersucht werden können, da sie diese nicht nutzen können. Das Gleiche gilt beispielsweise, falls kein Zugang zum Internet besteht.
In einem nächsten Schritt soll das Verfahren auf die Plattform Twitter erweitert werden. Zunächst wird dies die Komplexität der Datenvorverarbeitung stark erhöhen. Beispielsweise müssen relevante Posts von Patienten aus der Masse an Posts herausgefiltert werden. Dadurch soll unter anderem sichergestellt werden, dass Werbeinhalte die Auswertung nicht verzerren. Die Auswertung von Twitter-Daten ermöglicht gleichzeitig, neben den Textdaten weitere Merkmale zu erfassen, wie beispielsweise den Ort des Posts. Des Weiteren können viele verhaltensbezogene Merkmale extrahiert werden, exemplarisch die Aktivität eines Nutzers und die Verknüpfung mit anderen Nutzern. Darüber hinaus zeigt die bestehende Literatur, dass sich demografische Merkmale, beispielsweise die ethnische Zugehörigkeit oder das Alter mittels Methoden des überwachten Lernens vorhersagen lassen.
GENAUERES BILD DER ZIELGRUPPE
Basierend auf der Extraktion der Merkmale wird in einem nächsten Schritt versucht werden, Muster in diesen Daten zu erkennen. Dadurch sollen Subpopulationen innerhalb eines Krankheitsbildes abgeleitet werden. Die Subpopulationen könnten somit durch ihren „digitalen Phänotyp“ beschrieben werden. Beispielsweise könnte eine Subpopulation anhand des Alters und des Ortes sowie der einhergehenden Symptomatik genauer bestimmt werden. Dies könnte die Charakterisierung einer Subpopulation ermöglichen, die von einem bestimmten ungedeckten medizinischen Bedürfnis besonders stark betroffen ist. Nutzer, die diesem Typ entsprechen, könnten gezielt über soziale Medien für Studien rekrutiert werden – und so die Wahrscheinlichkeit eines Nutzennachweises erhöhen. Genauso könnten Awareness-Kampagnen im digitalen Umfeld der Patienten positioniert oder Opinion Leader bestimmter Krankheiten in sozialen Netzwerken identifiziert werden.
FEHLER NICHT AUSGESCHLOSSEN
Nichtsdestotrotz sollte immer berücksichtigt werden: Methoden des Maschinellen Lernens sind statistische Modelle, dementsprechend ist immer eine gewisse Fehlerrate enthalten. Weitere Forschungsfelder sind Systeme zur Erkennung von Arzneimittelnebenwirkungen und Off-Label-Nutzungen von Medikamenten im Kontext des Drug Repurposing. Insgesamt ist Social Media Mining noch relativ unerforscht – es gibt jedoch erste Start-ups, die eine Kooperation mit etablierten Playern der Pharmabranche eingegangen sind.
ANZEIGE