Home/ChatGPT Health im Test: Mehr als jeder zweite Notfall falsch eingestuft
imageSymbolbild: Unsplash.

ChatGPT Health im Test: Mehr als jeder zweite Notfall falsch eingestuft

Das Tool soll Patientinnen und Patienten helfen, ihre Beschwerden einzuschätzen. Eine Studie zeigt nun: ChatGPT Health verharmlost über die Hälfte aller Notfälle. Besonders heikel ist dies bei Suizidgedanken.

Sarah Bourdely3.3.20263"
ChatGPT Health gibt Laien medizinische Empfehlungen – auch dazu, ob sie in die Notaufnahme gehen sollen. Laut Hersteller OpenAI nutzen rund 40 Millionen Menschen das Angebot täglich.

Forschende der Icahn School of Medicine at Mount Sinai haben das Tool nun erstmals unabhängig untersucht. Für die in «Nature Medicine» veröffentlichte Studie entwickelten Ärztinnen und Ärzte 60 realistische Fallbeispiele aus 21 Fachgebieten – von harmlosen Beschwerden bis zu echten Notfällen. Drei unabhängige Mediziner legten fest, wie dringend jeder Fall ist. Insgesamt testete das Team das System 960 Mal.

Das Ergebnis: Eindeutige Notfälle wie Schlaganfall oder schwere allergische Reaktionen erkannte das Tool meist korrekt. Doch mehr als die Hälfte der Fälle, die aus ärztlicher Sicht sofort in die Notaufnahme gehören, wurden vom System nicht als Notfall eingestuft.
Richtige Analyse, falsche Empfehlung
ChatGPT Health funktioniere gut bei klar definierten Notfällen, erklärt Erstautor Ashwin Ramaswamy in einer Mitteilung. «Schwierigkeiten zeigten sich jedoch bei differenzierteren Situationen, in denen die Gefahr nicht sofort offensichtlich ist».

Auffällig war, dass das System in seinen Erklärungen teilweise selbst gefährliche Befunde korrekt benannte – die Patientinnen und Patienten jedoch dennoch beruhigte. «In einem Asthma-Szenario identifizierte das System frühe Warnzeichen einer respiratorischen Insuffizienz, empfahl aber dennoch abzuwarten statt eine Notfallbehandlung aufzusuchen», so Ramaswamy.
«Large Language Models sind für viele Patientinnen und Patienten zur ersten Anlaufstelle bei medizinischen Fragen geworden – doch gerade in Grenzfällen sind sie 2026 am wenigsten verlässlich. Dort entscheidet klinisches Urteilsvermögen darüber, ob ein Notfall übersehen oder unnötig Alarm ausgelöst wird.» Isaac S. Kohane, Harvard Medical School,
Besonders kritisch sei der Umgang mit Suizidrisiken. Das System soll in Hochrisikosituationen auf eine Krisenhotline verweisen. Laut Studie geschah das jedoch unzuverlässig. Teilweise erschien eine Warnung bei eher geringem Risiko – während sie bei konkreten Suizidplänen fehlte.
Aus klinischer Sicht ist das heikel: Gerade wenn jemand genau beschreibt, wie er oder sie sich schaden will, besteht akute Gefahr.
«Wir müssen lernen, die Ergebnisse solcher Tools kritisch zu prüfen, Schwächen zu erkennen und sie so einzusetzen, dass Patientinnen und Patienten geschützt werden.» Alvira Tyagi, Co-Autorin, Icahn School of Medicine at Mount Sinai.
Die Studie ist eine Momentaufnahme. KI-Modelle werden laufend angepasst. Trotzdem zeigt die Untersuchung, dass unabhängige Prüfungen nötig sind – besonders bei Tools, die Empfehlungen zu dringlichen medizinischen Entscheidungen geben. Für die Praxis bleibt zentral: KI kann informieren, aber sie ersetzt kein ärztliches Urteil.

Zur Originalpublikation:
  • Ramaswamy, A., Tyagi, A., Hugo, H. et al.: «ChatGPT Health performance in a structured test of triage recommendations», in: «Nature Medicine», Februar 2026.
  • DOI: 10.1038/s41591-026-04297-7

just-medical!
Blegistrasse 5
6340 Baar
Schweiz

www.just-medical.com

Kontakt
info@docinside.ch
+41 41 766 11 55
Redaktionelle Leitung:
Dr. phil. des. Sarah Bourdely
sarah.bourdely@medinside.ch