Home/Symptom-Check: Dr. Google schlägt Dr. ChatGPT
imageSymbolbild: Unsplash.

Symptom-Check: Dr. Google schlägt Dr. ChatGPT

Chatbots ersetzen keinen Hausarzt – und offenbar nicht einmal gängige Suchmaschinen. Das zeigt eine in Nature Medicine publizierte Studie aus Oxford. Laut den Forschenden reden Mensch und KI aneinander vorbei.

Sarah Bourdely11.2.20265"
In Benchmarks glänzen Sprachmodelle – im Alltag nicht. Eine randomisierte Oxford-Studie in Nature Medicine zeigt: Bei der Symptomrecherche treffen Google-Nutzende häufiger die richtige Verdachtsdiagnose als ChatGPT-Anwender.
  • Bean, A.M., Payne, R.E., Parsons, G. et al.: «Reliability of LLMs as medical assistants for the general public: a randomized preregistered study», in: «Nature Medicine», Februar 2026.
  • DOI: 10.1038/s41591-025-04074-y
Das Forschungsteam stellte den etwa 1'300 Teilnehmenden medizinische Fallbeispiele vor. Diese sollten mögliche Erkrankungen identifizieren und entscheiden, wie sie weiter vorgehen würden: Selbstbehandlung, Hausarzttermin oder Notaufnahme. Eine Gruppe nutzte dafür ein grosses Sprachmodell (GPT-4o, Llama 3 oder Command R+), die Kontrollgruppe recherchierte konventionell – etwa über Suchmaschinen.

Das Resultat: Die Kontrollgruppe fand mit 1,5-fach höherer Wahrscheinlichkeit eine passende Verdachtsdiagnose. Zudem entschieden sich alle Gruppen in mehr als der Hälfte der Fälle für einen unzutreffenden nächsten Schritt – häufig wurde die Dringlichkeit unterschätzt.
Gescheiterte Kommunikation
Besonders aufschlussreich war der Vergleich mit klassischen KI-Evaluationen. In standardisierten Tests schnitten die Modelle gut ab. Bekamen sie in der Studie die vollständigen Fallinformationen direkt vorgelegt, identifizierten die Sprachmodelle in 94,9 Prozent der Fälle die Erkrankungen und in durchschnittlich 56,3 Prozent die Vorgehensweise richtig.

Sobald jedoch reale Menschen Fragen stellten, Informationen wegliessen oder Symptome unpräzise beschrieben, verschlechterte sich die Leistung der KI deutlich. Sie identifizierte dann in weniger als 34,5 Prozent der Fälle relevante Erkrankungen und in weniger als 44,2 Prozent die richtige Vorgehensweise.
«Despite all the hype, AI just isn’t ready to take on the role of the physician. Patients need to be aware that asking a large language model about their symptoms can be dangerous, giving wrong diagnoses and failing to recognise when urgent help is needed.» Rebecca Payne, Studienleiterin.
Die Autorinnen und Autoren sprechen von einem «two-way communication breakdown». Die User wussten häufig nicht, welche Informationen relevant sind. Gleichzeitig mischten die Modelle korrekte und problematische Empfehlungen – für Laien schwer unterscheidbar.

Seniorautor Adam Mahdi vom Oxford Internet Institut sieht hier vor allem ein strukturelles Problem. In einer Mitteilung fordert Mahdi eine Art klinische Validierung für KI-Systeme: «So wie wir für neue Medikamente klinische Studien verlangen, brauchen auch KI-Systeme strenge Tests mit vielfältigen, realen Nutzerinnen und Nutzern».
Interaktion als Kernproblem
Das Science Media Center hat mehrere Expertinnen und Experten um Einschätzung gebeten.

Iryna Gurevych (TU Darmstadt) zeigt sich überrascht davon, dass Sprachmodelle mit simulierten Nutzenden deutlich besser abschneiden als mit echten Menschen:
«Dies zeigt, dass Simulationen die Mehrdeutigkeiten, das Auslassen von Informationen und das Entscheidungsverhalten tatsächlicher Nutzender nicht erfassen können.»
Auch Anne Reinhardt (LMU München) sieht die Interaktion als Kernproblem:
«Ohne adäquate Nutzer:innen-Kompetenz bleibt auch ein hochfunktionales KI-Modell im Gesundheitskontext fehlerbehaftet.»
Kerstin Denecke von der Berner Fachhochschule weist ihrerseits auf regulatorische und strukturelle Anforderungen hin:
«Ein medizinisch spezialisierter Chatbot müsste evidenzbasierte, aktuelle Informationen bieten. Ausserdem müsste er Notfallsituationen zuverlässig erkennen, individuelle Risikofaktoren berücksichtigen und transparent seine Grenzen kommunizieren. Er sollte eine strukturierte Anamnese erheben, um zuverlässig triagieren zu können. Und er sollte sich nicht dazu hinreissen lassen, eine Diagnose zu stellen.»
Die Studie zeigt nicht, dass KI-Systeme grundsätzlich ungeeignet sind. Sie zeigt jedoch klar, dass ihre Leistung stark von der Qualität der Interaktion abhängt – und dass Benchmarks allein keine ausreichende Sicherheit garantieren. Oder anders formuliert: Zwischen beeindruckender Prüfungsleistung und klinischer Alltagstauglichkeit liegt noch eine erhebliche Lücke.

just-medical!
Blegistrasse 5
6340 Baar
Schweiz

www.just-medical.com

Kontakt
info@docinside.ch
+41 41 766 11 55
Redaktionelle Leitung:
Dr. phil. des. Sarah Bourdely
sarah.bourdely@medinside.ch