Der G-BA Algorithmus, geknackt
Anja Lamprecht
Neue Digitale Welt - Einblicke in die Zukunftswerkstatt der „Künstlichen Intelligenz“Teil 6In ihrem sechsten und abschließenden Beitrag setzen sich Dr.-Ing. Christian Kauth, HealthCare Futurists GmbH Zürich, und Dr. med. Tobias Gantner, HealthCare Futurists GmbH Köln, mit der Frage auseinander, ob Künstliche Intelligenz (KI) vorhersagen kann, welche Medikamente in Deutschland einsetzbar sein werden. Ein KI-Dreiergespann soll aus den historischen Entscheiden des Gemeinsamen Bundesauschusses (G-BA) eine Logik erkennen, welche es Medikamentenherstellern erlaubt, das Markteintrittspotenzial eines neuen Wirkstoffes frühzeitig vorherzusagen, noch bevor der offizielle Prozess eingeleitet wird. Der G-BA Algorithmus, geknackt Wir sind die Summe unserer Entscheidungenvon Christian Kauth, Fribourg, Schweiz und Tobias D. Gantner, Köln Darüber, welche Medikamente in Deutschland einsetzbar sind, entscheidet der Gemeinsame Bundesausschuss (G-BA). Vor zehn Jahren wurde dazu das Arzneimittelmarktneuordnungsgesetz AMNOG (§ 35b SGB V i. V. m. § 130b SGB V) samt Verfahrensordnung einer Zusatznutzenbewertung eingeführt. Durch dieses Verfahren wird der Zusatznutzen neuer Therapien sondiert. Wir wollten wissen, ob es einer künstlichen Intelligenz gelingt, das Ergebnis einer Nutzenbewertung eines Medikaments vorherzusagen − basierend auf den Entscheidungen, die über die letzten Jahre hinweg getroffen wurden und deren Begründungen allgemein zugänglich im Netz sind.Der lange Weg zur ZulassungHat sich ein neuer Wirkstoff in Phase-I-, -II- und -III-Studien bewährt, wird er, in Form eines Medikamentes, zusammen mit einem voluminösen Dossier, erst beim Institut für Qualität und Wirtschaftlichkeit im Gesundheitswesen (IQWiG), dann beim G-BA eingereicht. Der vom G-BA erteilte Zusatznutzen gegenüber bestehender Vergleichstherapien ist entscheidend für das weitere Schicksal des Medikamentes: Nur wenn dieser hoch ausfällt, wird das Medikament ein Preispremium erzielen können, welches es dem pharmazeutischen Unternehmen ermöglicht, den Weg zu einer Erstattung durch die Gesetzliche Krankenversicherung (GKV) zu nehmen, ggf. mit einem Schlichtungsverfahren vor der Schiedsstelle.Knackpunkt Bewertung des ZusatznutzensWir werden jetzt versuchen, den so entscheidenden „G-BA-Algorithmus“, der hinter den Entscheidungen zu den Zusatznutzenbewertungen steht, gemeinsam mit Ihnen und vor Ihren Augen zu knacken. Wir werden dabei wissenschaftlich und faktenbasiert vorgehen, wir heißen Sie willkommen in der Zukunftswerkstatt der künstlichen Intelligenz.Bevor wir allerdings die künstliche Intelligenz die Arbeit übernehmen lassen, ist es wichtig zu verstehen, dass die G-BA-Logik nicht notwendigerweise eine lineare Anwendung ist, wie man sie bei rein wissenschaftlich agierenden Institutionen vermuten könnte. Die klare wissenschaftliche Bewertung findet zunächst beim IQWiG statt, das dazu vom G-BA beauftragt wird. Der Bewertung des IQWiG muss der G-BA nicht folgen und in vielen Fällen unterscheidet sich die abschließende Bewertung auch davon. Das liegt daran, dass der G-BA auch immer wieder einen politischen Ausgleich erzielen muss. Dieser Ausgleich kann unterschiedliche Gründe und Ausprägungen haben, wie z. B. bereits durchgeführte Verhandlungen zu anderen Produkten aus der Produktfamilie oder Bewertung anderer Produkte desselben Unternehmens. Gerade der Interessensausgleich stellt in seiner non-linearen Form eine Herausforderung bei der Market-Access-Strategie-Entwicklung dar, insofern, als er nur leidlich vorhersagbar ist. Das führt auch innerhalb von Unternehmen zu wenig aussagefähigen Vorhersagen zum Ergebnis der Nutzenbewertung und der daran anschließenden Preisbildung. Insofern ist „Cracking the G-BA Code“ auch ein wichtiges strategisches Instrument zur Simulation und Vorhersagbarkeit von AMNOG-Dossiers und den sich anschließenden Verfahren.Unsere Zutaten beziehen wir, ähnlich dem Online-Shopping, aus dem Netz, jedoch kostenlos. Sämtliche G-BA-Nutzenbewertungen sind ersichtlich unter https://www.g-ba.de/bewertungsverfahren/nutzenbewertung. Die aktuell 750 verfügbaren Dossiers werden unsere Datenquelle sein, oder im Analogon, Ölquelle, welche, wenn korrekt raffiniert, unsere künstliche Intelligenz (KI) antreibt und trainiert. Im Rahmen dieses Exkurses, werden wir uns begnügen eine KI zu trainieren, welche Vorhersagen zur Zusatznutzenbewertung macht, basierend auf den vom G-BA gelieferten Tragenden Gründen. Stellt sich das als machbar heraus, können wir flussaufwärts segeln, und Einfluss nehmen auf die Gestaltung des Dossiers, und gar auf die Planung der Phase-III-Studien – zusatznutzenoptimierende Phase-III-Studien erscheinen am Horizont des Machbaren.Drei KI, Hand in HandUnsere KI muss also in der Lage sein, basierend auf den Tragenden Gründen, eine Vorhersage über den Zusatznutzen zu treffen. Gegeben die Komplexität dieser Herausforderung, sind 750 Dossiers allerdings alles andere als „Big Data“, und würden nicht ausreichen, um das darin enthaltene Signal vom Rauschen zu unterscheiden. Die Kunst besteht darin, das komplexe Problem der Zusatznutzenvorhersage in kleinere, simplere Probleme zu zerlegen – so simpel, dass eine KI aus „Small Data“ lernen kann.Wir starten, indem wir alle verfügbaren Tragenden Gründe aus dem Netz ziehen (das macht der Webscraper) und den darin enthaltenen Text nach Endpunkten – Morbidität, Mortalität, Lebensqualität, Nebenwirkungen – und deren Unterpunkte zerlegen (das macht der Parser). Anschließend kommen drei KI zum Einsatz, welche jeweils eines der simpleren Probleme lösen (Abbildung 1).Kurzfassungs-KIDie Textabschnitte dieser Unterpunkte haben sich weiterhin als zu umfänglich herausgestellt, als dass eine einzelne KI aus ein paar Hundert Bespielen lernen könnte, gute Vorhersagen zum Zusatznutzen zu treffen. Deswegen besteht die Aufgabe unserer ersten KI darin, die Texte zusammenzufassen, ohne dass dabei entscheidungskritischer Inhalt verloren geht. Beispielsweise könnte ein binärer Klassifikator diesen Task erfüllen: Für jeden Satz im Text bestehen zwei Möglichkeiten, entweder er gehört zur Kurzfassung, oder er wird verworfen. Um diesen Klassifikator zu trainieren, haben wir von fachkundigem Market-Access-Personal die Tragenden Gründe von knapp hundert Dossiers kurzfassen lassen. Die darauf trainierte KI ist nun in der Lage alle restlichen Texte kurzzufassen, in Sekundenschnelle und ganz nach der Art des Fachpersonals.Die hier beschriebene Art der Kurzfassung, besteht ausschließlich aus ausgewählten Sätzen des Originaltextes und trägt somit den Namen selektive Kurzfassung. Die etwas holperige Aneinanderreihung dieser Satzauswahl stört nicht, da die resultierende Kurzfassung nicht für das menschliche Auge bedacht ist, sondern von einer zweiten KI weiterverarbeitet wird. Sollten Sie jedoch geschmeidigeren Kurzfassungstext wünschen, so empfehlen wir eine generative Kurzfassung, eine KI die selber Text generiert. Die aktuell besten solche KI stützen sich auf eine Transformer-Architektur (Abbildung 2) und sind auf riesigem Textvolumen (z. B. das gesamte Wikipedia) vortrainiert. Uns, dem Endnutzer, obliegt es ihre Feinabstimmung vorzunehmen, um sie für unsere ganz spezielle Aufgabenstellung zu optimieren. Der Fachausdruck für diese Feinabstimmung einer vortrainierten KI lautet übrigens „Transfer Learning“. Transfer Learning findet breite Anwendung, weit über die Sprachmodelle des Natural Language Processing (NLP) hinaus. Müsste man solche Modelle immer erneut von Null auf trainieren, heizte das nicht nur die finanzielle, sondern auch die klimatische Lage an – der Energieaufwand zum Vortrainieren der großen Sprachmodelle wie GPT-2 und Transformer XL beläuft sich tatsächlich auf Hunderte Tonnen CO2-Emissionen.Nach dem Training haben wir die Kurzfassungs-KI auf dem Testset getestet, also auf Dossiers, welche nicht Bestandteil des Trainingsmaterials waren. Die KI teilt drei aus vier Sätze der Kurzfassung so zu, wie es auch das Market-Access-Fachpersonal macht (Abbildung 3). Wir wollen zum einen anmerken, dass auch die Experten sich gelegentlich uneinig waren, welche Sätze denn eigentlich entscheidungskritisch sind. Zum anderen werden die zwei folgenden KI, nebst ihrer respektiven Hauptaufgaben, auch erlernen, mit den Fehlern dieser ersten KI umzugehen – jede KI hat zwar ihre eigene spezifische Mission, gemessen werden sie aber an der Gesamtleistung des KI-Dreiergespanns.Bewertungs-KIAlgorithmen des maschinellen Lernens, wie unter anderem die erwähnten Klassifikatoren und Transformer, verarbeiten ausschließlich Zahlen. Demnach bedarf es eines Datenaufbereitungsschrittes, welcher den Text, die Wörter, in Zahlen umwandelt. Während die Transformermodelle ausgefeilte und trainierte Tokenizer nutzen, sind Word Embeddings, oder Bag-of-Words-Darstellungen für den doch recht begrenzten Wortschatz der kurzgefassten Texte ausreichend.Word Embeddings werden auf umfangreichen Textcorpora trainiert und projizieren jedes Wort aus dem definierten Vokabular in einen hochdimensionalen Raum, in dem sich ähnlich verwendete Wörter in enger Umgebung wiederfinden, und die Verhältnisse zu anderen Wörtern einer vektoriellen Arithmetik folgen, ganz nach dem Prinzip „gleich und gleich gesellt sich gern“. Abbildung 4 illustriert ein paar Word Embeddings.Ab hier sind die Kurzfassungen als Sammlung von Vektoren dargestellt, welche in ein rekurrentes Neuronales Netz gespeist werden können, zum Beispiel ein LSTM (zur Erklärung verweisen wir auf den zweiten Artikel dieser Serie, „Macht Künstliche Intelligenz medizinische Expertise zum Allgemeingut?“ in connexi 4-2020). Darauf folgen ein paar dichtverknüpfte neuronale Schichten, und schon steht die Architektur der Bewertungs-KI. Sie soll lernen die Kurzfassungen aller Endpunkte in Noten umzuwandeln, welche darstellen, inwiefern der jeweilige Endpunkt positiv oder negativ zu einem möglichen Zusatznutzen beiträgt (Abbildung 6). Auch für dieses Training wurde auf humane Market Access Expertise zurückgegriffen – die Kurzfassung von knapp hundert Dossiers, einige von Menschenhand, andere durch die Kurzfassungs-KI erstellt, erforderten eine manuelle Benotung zum Training der Bewertungs-KI. Zur Kontrolle lassen wir die KI einige Kurzfassungen des Testsets benoten und vergleichen diese mit der Bewertung der Market-Access-Experten (Abbildung 5) – die Übereinstimmung ist mit 84 % zwar nicht perfekt, aber ausreichend, um eine weitere und letzte KI anzureihen, die Logik-KI, welche lernen soll wie der G-BA die verschiedenen Endpunkte bewertet. Alle weiteren Dossiers wurden dann von dieser Bewertungs-KI benotet.G-BA-Logik-KIFortan sind die Daten sehr strukturiert, aus Fließtext wurden Noten, die tabellarisch dargestellt werden können (Abbildung 6). Nun kann die letzte KI ihre Arbeit aufnehmen. Sie berechnet aus den Teilnoten der End- und Unterpunkte den Gesamtzusatznutzen. Einmal trainiert, ist die Kette dieser drei KIs in der Lage eine präzise Vorhersage zu treffen über den Zusatznutzen welcher der G-BA, meist Monate später, vergeben wird. Wir haben das KI-Dreiergespann auf fünf Testsets zu jeweils 15–16 Dossiers validiert und im Durchschnitt eine korrekte Klassifizierung für 88 % der Dossiers erhalten (80 %, 80 %, 87 %, 93 % und 100 %).Die G-BA-Logik-KI ist eine sogenannte Random Forest – eine Ensemble-Methode, welche aus einer Vielzahl einzelner Entscheidungsbäume besteht. Ensemble-Methoden reduzieren die Varianz der Vorhersagen von schwachen Prädiktoren, wie Entscheidungsbäumen, und zählen zu den besten KI-Architekturen für strukturierte Daten – insbesondere tun sich in der Praxis die Gradient Boosting Machines hervor, eine ganz spezielle Sammlung von Entscheidungsbäumen – Gruppen sind nun mal klüger als Einzelne.Einen der Entscheidungsbäume aus der Random Forest zeigt Abbildung 7. Dieser Baum prophezeit große Wahrscheinlichkeit auf einen Gesamtzusatznutzen für Dossiers mit Zusatznutzen im Endpunkt Morbidität. Liegt zusätzlich auch ein Zusatznutzen im Endpunkt Lebensqualität vor, ist der Gesamtzusatznutzen garantiert. Besteht weder Zusatznutzen in den Endpunkten Morbidität noch Mortalität, ist die Aussicht auf einen Gesamtzusatznutzen gering.Der G-BA-Algorithmus, geknacktMit einer Trefferquote von 88 % erteilt unser KI-Dreiergespann in knapp 9 von 10 Fällen denselben Zusatznutzen wie der G-BA, und könnte so als G-BA-Simulator Anwendung finden, ein Strategietool für das Market-Access-Team. „Ist das Dossier reif zur Einreichung in den G-BA, oder sollte noch an dem einen oder anderen Punkt gefeilt werden?“ Unsere KI können die Frage im Handumdrehen beantworten, mit einem quasi 90%igen Konfidenzlevel. Dieses KI-Dreiergespann ist die Summe aller historischen Entscheidungen des G-BAs.Fragt man allerdings nach der Erklärung hinter der Entscheidung der KI, wird die Situation deutlich undurchsichtiger. Während sich die Entscheidungen der einzelnen Entscheidungsbäume sehr einfach nachvollziehen lassen – man folge dem Pfad, von der Wurzel zum Blatt – sieht man in der Random Forest vor lauter Bäumen den Wald nicht mehr. Natürlich bestimmt die Random Forest lediglich den Mehrheitsentscheid aller Bäume, aber das macht die Logik zum Gesamtentscheid sehr schwer nachvollziehbar. Wir Menschen tun uns notorisch schwer den Entscheidungen einer KI zu trauen, wenn deren Überlegungen nicht transparent dargelegt werden können. Obwohl wir den Anspruch erheben, eine KI müsse Ihren Entscheid rechtfertigen können, leben wir trotzdem sehr zufrieden in Demokratien (Entscheidungswäldern), in welchen Individuen (Entscheidungsbäume) ihre Meinung zu einem gemeinsamen Konsensus (Mehrheitsentscheid, Vorhersage der KI) beisteuern, welcher technisch gesehen genauso wenig transparent erklärbar ist.The EndMit diesem Gedanken nach der Rechenschaft, welche wir den künstlichen weit mehr als den menschlichen Intelligenzen abverlangen, schließt sich unsere Hexalogie – „Die Natur der Künstlichen Intelligenz“ (Start der Hexalogie, in connexi 2-2020 connexiplus) ist jener der menschlichen Intelligenz gar nicht so fremd. xt Blogbild-Copyright: Kiyoshi Takahase Segundo/Alamy Stock Foto. Autoren: Dr.-Ing. Christian KauthE-mail Dr. med. Vera Christine WulfmeyerE-mail Lesen Sie weitere Beiträge direkt im e-Paperder Ausgabe connexiplus 2021-4 Weitere Beiträge aus dieser Serie Der G-BA Algorithmus, geknackt . Wir sind die Summe unserer Entscheidungen Teil 6von Christian Kauth und Tobias Gantner 2021 Technologie verändert die Welt: Medizin. Macht. Möglichkeiten. Teil 5von Christian Kauth und Tobias Gantner 2021 Technologie verändert die Welt: Medizin. Macht. Möglichkeiten. Teil 4von Christian Kauth und Tobias Gantner 2021 BIG DATA, MACHINE LEARNING und KI - Daten. Können. Heilen. Teil 3von Christian Kauth und Tobias Gantner 2020 Demokratisierung der Medizin - Macht Künstliche Intelligenz medizinische Expertise zum Allgemeingut? Teil 2von Christian Kauth und Tobias Gantner 2020 Die Natur der Künstlichen Intelligenz Teil 1von Christian Kauth und Tobias Gantner 2020