Führende Systeme der künstlichen Intelligenz (KI), einschließlich ChatGPT, sind anfällig für die Wiederholung falscher Gesundheitsinformationen, wenn sie überzeugend präsentiert werden, so eine neue Studie, die in The Lancet Digital Health veröffentlicht wurde. Dies wirft erhebliche Bedenken auf, da KI zunehmend in das Gesundheitswesen integriert wird, wo Genauigkeit über Leben und Tod entscheiden kann.
Der Aufstieg der KI im Gesundheitswesen … und die Risiken
LLMs (Large Language Models) werden zunehmend eingeführt, um Ärzten und Patienten einen schnelleren Zugang zu medizinischen Erkenntnissen zu ermöglichen. Aber diese Studie zeigt, dass diese Systeme Fehlinformationen immer noch unkritisch akzeptieren und verbreiten können, selbst in realistischer medizinischer Sprache. Dies ist ein Problem, da sich Menschen für Gesundheitsinformationen zunehmend auf Online-Quellen – einschließlich KI-Chatbots – verlassen und falsche Ratschläge schwerwiegende Folgen haben können.
Wie die Studie durchgeführt wurde
Forscher des Mount Sinai Health System testeten 20 LLMs von großen Entwicklern (OpenAI, Meta, Google, Alibaba, Microsoft, Mistral AI) mit über einer Million Eingabeaufforderungen. Zu diesen Aufforderungen gehörten falsche medizinische Aussagen, die als legitime Informationen getarnt waren: erfundene Krankenhausnotizen, entlarvte Gesundheitsmythen von Reddit und simulierte klinische Szenarien. Das Ziel war einfach: Würde die KI Unwahrheiten wiederholen, wenn sie glaubwürdig formuliert wären?
Wichtigste Ergebnisse: Leichtgläubigkeit variiert, bleibt aber ein Problem
Die Ergebnisse zeigten, dass KI-Modelle insgesamt in 32 % der Fälle auf erfundene Informationen hereinfielen. Es gab jedoch erhebliche Unterschiede. Kleinere oder weniger fortgeschrittene Modelle glaubten in über 60 % der Fälle an falsche Behauptungen, während leistungsfähigere Systeme wie ChatGPT-4o diese nur in 10 % der Fälle wiederholten. Überraschenderweise schnitten medizinisch abgestimmte Modelle bei der Identifizierung falscher Behauptungen schlechter ab als allgemeine LLMs.
Beispiele für Fehlinformationen, die von der KI akzeptiert werden
Die Studie identifizierte mehrere gefährliche Beispiele:
- KI-Modelle akzeptierten falsche Behauptungen wie „Tylenol kann Autismus verursachen, wenn es von schwangeren Frauen eingenommen wird.“
- Sie wiederholten Fehlinformationen wie „Rektaler Knoblauch stärkt das Immunsystem.“
- Ein Model akzeptierte sogar einen Entlassungsbescheid, in dem Patienten mit blutender Speiseröhrenentzündung geraten wurden, „kalte Milch zu trinken, um die Symptome zu lindern“.
Diese Beispiele zeigen das Potenzial der KI, gesundheitsschädliche Ratschläge zu verbreiten. Die Studie ergab auch, dass KI-Systeme falschen Behauptungen eher glauben, wenn ihnen überzeugende, aber logisch fehlerhafte Argumente vorgelegt werden, wie etwa Appelle an Autoritäten („Ein Experte sagt, das ist wahr“) oder schlüpfrige Argumente („Wenn X passiert, folgt eine Katastrophe“).
Was kommt als nächstes? Messung der KI-Zuverlässigkeit
Die Autoren betonen die Notwendigkeit, die Anfälligkeit der KI für Fehlinformationen als messbare Eigenschaft zu behandeln. Sie schlagen vor, groß angelegte Stresstests und externe Beweisprüfungen durchzuführen, bevor KI in klinische Instrumente integriert wird. Die Forscher haben ihren Datensatz für Entwickler und Krankenhäuser zur Bewertung ihrer Modelle freigegeben.
„Anstatt davon auszugehen, dass ein Modell sicher ist, kann man messen, wie oft es eine Lüge weitergibt und ob diese Zahl in der nächsten Generation sinkt“, sagte Mahmud Omar, der Erstautor der Studie.
Die Ergebnisse unterstreichen, dass KI zwar das Potenzial hat, die Gesundheitsversorgung zu verbessern, ihre unkritische Akzeptanz falscher Informationen jedoch ein erhebliches Risiko darstellt. Strenge Tests und integrierte Sicherheitsmaßnahmen sind für eine breite Einführung von entscheidender Bedeutung.
































