Gesundheit29 April, 2025

Verantwortungsvolle KI im Gesundheitswesen: Vier Säulen des Vertrauens für klinische generative KI

Bevor Sie sich für eine klinische KI-Lösung entscheiden, sollten Sie sich vergewissern, dass sie auf einem Rahmenwerk strenger Überprüfung und kontinuierlicher Weiterentwicklung basiert.

Künstliche Intelligenz (KI) hat das Potenzial, den Umgang von Leistungserbringern und Patient:innen mit Informationen von Grund auf zu verändern. Wenn es um klinische Informationen und die Interpretation medizinischer Daten geht, die direkte Auswirkungen auf die Behandlung haben können, muss die Gesundheitsbranche jedoch das Potenzial der KI gegen die ihr innewohnenden Risiken abwägen.

Um die klinisch generative KI (GenAI) auf der Basis großer Sprachmodelle (large language model, LLM) voranzutreiben und ihr Versprechen einzulösen, enorme Mengen an medizinischen Daten zu interpretieren und schnell Erkenntnisse zu liefern, müssen sowohl die Lösungsentwickler als auch die Anwendungspartner die entscheidende Bedeutung der Vertrauenswürdigkeit bei KI-gesteuerten Gesundheitslösungen in den Mittelpunkt stellen. Vertrauen lässt sich nur auf einer soliden Grundlage von fachlicher Kontrolle und Verantwortungsbewusstsein aufbauen.

Es steht viel auf dem Spiel für verantwortungsvolle KI im Gesundheitswesen

Wir wissen, dass klinische KI mitunter Anfragen falsch interpretiert oder Antworten erfindet. Sie erinnert Nutzer:innen oft in Haftungsausschlüssen daran, dass sie sich noch im Lernmodus befindet. „Es wird eine Weile dauern, bis diese Modelle zuverlässiger werden, aber ich glaube fest an die Kraft der Innovation und der Skalierung von Technologien, um solche Hürden zu überwinden“, sagt hierzu Manish Vazirani, Vice President of Clinical Effectiveness Product Software Engineering bei Wolters Kluwer Health.

Bei der Suche nach klinischen LLM-Tools für ihre Organisationen rät Vazirani Führungskräften im Gesundheitswesen, nach KI-gesteuerten Lösungen zur klinischen Entscheidungsunterstützung Ausschau zu halten, die auf denselben strengen Standards beruhen wie herkömmliche, von Expert:innen kuratierte Quellen. Durch eine solide klinische Überprüfung und evidenzbasierte Inhalte entwickeln Anbieter anerkannter Ressourcen zur klinischen Entscheidungsunterstützung wie UpToDate® zuverlässige medizinische Informationen. Vazirani erklärt, dass klinische, LLM-gestützte GenAI einen gleichwertigen Standard anstreben muss – nicht, indem sie traditionelles Fachwissen ersetzt, sondern indem sie es um Geschwindigkeit und Skalierbarkeit ergänzt. KI bietet diese durch Verwendung eines Modells, das auf denselben sorgfältig kuratierten und definierten Experteninhalten trainiert wurde, um relevante Antworten zu identifizieren.

Wenn klinische GenAI-Lösungen unkontrolliert arbeiten, können Verzerrungen (Bias) und unvollständige Daten ihre Antworten beeinflussen. Dies führt zu einem Verschwimmen von vertrauenswürdigen und fehlerhaften Informationen. Die Wahrscheinlichkeit fehlerhafter Informationen steigt, wenn klinische LLM-gestützte GenAI ohne angemessene Kontrolle arbeiten und ihre Antworten anfällig für Verzerrungen und unvollständige Daten sind. Aus diesem Grund betont Vazirani, wie wichtig es ist, dass die Entwickler fortlaufende interne Überprüfungen durchführen, die von Fachleuten aus der Klinik unterstützt oder geleitet werden, um zu gewährleisten, dass der von GenAI generierte Inhalt fachlich korrekt ist.

Eine verantwortungsbewusste KI-Lösung stellt Informatiker und klinische Expert:innen vor ein „einzigartiges Dilemma“, erklärt Vazirani. „Wir versuchen, uns auf eine verantwortungsbewusste Entwicklung und nicht auf Geschwindigkeit zu konzentrieren, um die Balance für Praxistauglichkeit zu finden. Und wir müssen zusätzliche Anforderungen berücksichtigen, die Ethik und Fairness einbeziehen.“

Die vier Säulen des Vertrauens für klinische GenAI

Verantwortungsvolle KI-Lösungen müssen auf einem Rahmenwerk von fachlicher Kontrolle und kontinuierlicher Verbesserung aufgebaut sein. Vazirani empfiehlt, klinische GenAI-Tools anhand einer Checkliste mit vier Vertrauenssäulen zu überprüfen:

1. Strenge klinische Überprüfung

Die Grundlage der klinischen GenAI muss ein robustes System der klinischen Überprüfung unter Einbeziehung von Expert:innen sein, die die KI dabei unterstützen, kontextuell angemessene Antworten zu geben:

  • Strenge klinische Überprüfung der kuratierten Trainingsfragen: Im Rahmen seiner Arbeit bei UpToDate hat Vaziranis Team beispielsweise 4.000 kuratierte „goldene Fragen“ aus 25 Fachgebieten verwendet, die das Rückgrat der Schulungsmodelle bilden. Dies trägt laut Vazirani dazu bei, dass die Ergebnisse auf spezifische Patientendemografien, klinische Relevanz, Erkrankungen und Behandlungsbedarfe zugeschnitten sind.
  • Das Identifizieren unzuverlässiger Antworten: Ebenso wichtig wie die Ermittlung zuverlässiger Ergebnisse ist die Identifizierung, Verfolgung und Verbesserung von Bereichen, in denen das Modell Daten mit geringer Relevanz abruft. Wenn ein klinisches LLM konsequent aus seinen Fehlern lernt, so Vazirani, baut es durch weitere Präzisierung Vertrauen auf.
  • Überprüfung des Inhalts auf „Erklärbarkeit“ und Interpretierbarkeit.

2. Anwendungen in der realen Welt

Verantwortungsbewusste klinische GenAI-Plattformen sollten zusätzliche Überprüfungsebenen für Zuverlässigkeit und Angemessenheit beinhalten:

  • Strenge klinische Überprüfung der von der KI generierten Antworten zur Bewertung der Zuverlässigkeit.
  • Aufforderungen (Prompts) und Algorithmen hinter den Kulissen sollten so gestaltet sein, dass sie ethische Bedenken vorwegnehmen und KI-Antworten verantwortungsbewusst steuern. So stellen einige Systeme sicher, dass Abfragen, die eine Verletzung der Privatsphäre oder schädliche Fragen – etwa Überdosierung – beinhalten, automatisch blockiert werden.
  • Zur Unterstützung dieses Prozesses sollten die Tools ständigen Tests unterzogen werden, wie z. B. der Berechnung von F1-Scores. So lässt sich ihre Fähigkeit zu bewerten, ein Gleichgewicht zwischen Zuverlässigkeit und Erinnerungsvermögen bei der Informationsbereitstellung herzustellen.

3. Kuratierte, evidenzbasierte Quelleninhalte

Während einige Fortschritte im Bereich der klinischen GenAI zu bahnbrechenden Anwendungen führen können, werden unkontrollierte Inhalte voraussichtlich zu Inkonsistenzen führen.

Die Zuverlässigkeit von LLM-Ergebnissen beginnt mit der Qualität des Quellmaterials. Im Gegensatz zu Open-Source-KI-Systemen, die ggf. auf unkontrollierte und ungeprüfte Daten zugreifen, verwenden verantwortungsbewusste Plattformen evidenzbasierte Quelleninhalte, die von Tausenden klinischer Expert:innen validiert wurden. Die Inhalte sollten aus vertrauenswürdiger medizinischer Literatur stammen und sich an etablierten Leitlinien orientieren.

Vazirani empfiehlt Lösungsanbieter, die sich an die folgenden verantwortungsvollen Standards halten:

  • Sammeln von Nutzerfeedback von internen und externen Stakeholdern zu generierten Antworten.
  • Erstellung von definierten Metriken zur Zuverlässigkeit der generierten Antworten.
  • Anwendung einer strengen klinischen Überprüfung.

4. Kontinuierliche Verbesserung der Modelle

Kein KI-System ist statisch, sagt Vazirani. Klinische LLM-gestützte GenAI-Plattformen sollten sowohl interne klinische Überprüfungen als auch Feedbackschleifen von frühen Anwender:innen nutzen, um sich weiterzuentwickeln und zu innovieren. Das Sammeln von Daten aus realen Anwendungen hilft bei der Feinabstimmung von Prompts und Algorithmen und unterstützt verantwortungsvolle klinische KI-Tools bei der Anpassung an sich ändernde Bedürfnisse und Erwartungen:

  • Kontinuierliche Feinabstimmung von LLM und Prompts zur Verbesserung der Zuverlässigkeit.
  • Aufbau eines Lernmodells mit frühen Anwendern.

Klinische GenAI: Herausforderungen begegnen und Nutzen steigern

„Ich glaube, dass KI ein großes Potenzial hat, die Arbeit der medizinischen Fachkräfte zu erleichtern und auf verantwortungsbewusste Weise neue Nutzwerte zu schaffen“, sagt Vazirani.

Mit einer verantwortungsvollen klinischen LLM-GenAI-Plattform sieht er die Möglichkeit, mehrere universelle Herausforderungen zu bewältigen, denen sich Leistungserbringer gegenübersehen:

  • Burnout im Gesundheitswesen: KI-Tools haben das Potenzial, das Burnout von Mitarbeitenden im Gesundheitswesen zu verringern, indem sie betriebliche und klinische Effizienz schaffen und den Zugang zu vertrauenswürdigen, klinischen Behandlungsinformationen beschleunigen.
  • Reduzieren der Komplexität: Klinische KI-Tools haben das Potenzial, die Qualität der Behandlung und die Behandlungsergebnisse zu verbessern und proaktiv auf Gesundheitsbedarfe einzugehen, indem sie Informationen schnell aufzeigen und komplexe Entscheidungsprozesse vereinfachen.
  • Integration: Durch die Beseitigung von Workflow-Hindernissen können KI-Tools, die in klinische Workflow-Lösungen integriert sind, Echtzeit-Erkenntnisse am Ort der Behandlung liefern und die klinische Entscheidungsfindung optimieren.
  • Kostengründe: Mittels des Zugriffs von Behandlungsteams auf vertrauenswürdige, standardisierte Inhalte und der Schaffung von Konsistenz haben KI-Tools das Potenzial, kostspielige Behandlungsunterschiede zu verringern und die Behandlungsergebnisse zu verbessern.

Langfristiges Engagement

Verantwortung in der Innovation und Partnerschaft für KI: Verantwortungsbewusste KI im Gesundheitswesen erfordert ein ständiges Engagement für Qualität und Überprüfung sowohl seitens der Entwickler:innen als auch der Nutzer:innen von Lösungen. Klinische GenAI-Lösungen sind nur so stark wie die ihnen zugrundeliegenden Sicherungsstrategien. Durch die Konzentration auf die vier Säulen – strenge klinische Prüfung, Anwendung in der Praxis, kuratierte evidenzbasierte Quellen und kontinuierliche Verbesserungen – lässt sich das Vertrauen von Leistungserbringern und Patient:innen in KI-Lösungen stärken.

Erfahren Sie mehr über UpToDate
Back To Top