Urgences médicales : ChatGPT se plante une fois sur deux

Le 23 février 2026, une étude publiée dans Nature Medicine a évalué pour la première fois de manière indépendante les performances de ChatGPT Santé, le chatbot d’OpenAI dédié à la santé et lancé récemment par l’entreprise. Les travaux ont été menés par des chercheurs de l’Icahn School of Medicine at Mount Sinai, à New York. Selon le communiqué officiel de Mount Sinai Health System du 24 février 2026, il s’agit de la première analyse de sécurité du système depuis son lancement en janvier 2026.

ChatGPT face à l’urgence médicale : une évaluation indépendante montre des failles majeures

Les chercheurs ont construit 60 vignettes cliniques couvrant 21 domaines médicaux différents, testées sous 16 conditions contextuelles, soit un total de 960 réponses générées par l’intelligence artificielle, d’après la publication référencée sur PubMed. Trois médecins indépendants ont déterminé, en amont, le niveau d’urgence attendu pour chaque cas à partir des recommandations de 56 sociétés savantes.

Le résultat est sans appel. Parmi les situations considérées comme des urgences immédiates par les experts, 52 % ont été sous-triées par ChatGPT Santé, selon les données rapportées par PubMed. Dans plus d’un cas grave sur deux, l’outil n’a pas conseillé un passage immédiat aux urgences. En situation réelle, ce type d’erreur peut avoir des conséquences très graves pour le patient.

« Nous voulions répondre à la question de sécurité la plus élémentaire : si une personne vit une véritable urgence médicale et demande à ChatGPT Health quoi faire, lui dira-t-il d’aller aux urgences ? », explique Ashwin Ramaswamy, cité par PaperGeek. La réponse est loin d’être rassurante.

Pourquoi ChatGPT se trompe en santé ?

Les erreurs ne se limitent pas aux seuls cas graves. L’étude met en évidence une courbe en « U inversé » des performances : les échecs se concentrent aux extrêmes cliniques, avec 48 % d’erreurs dans les urgences et 35 % dans les situations non urgentes, selon PubMed. Concrètement, l’outil peine autant à reconnaître un danger vital qu’à rassurer correctement un patient sans gravité.

Plus surprenant encore, l’intelligence artificielle a recommandé à tort un passage aux urgences pour 64,8 % des patients ne présentant pas de pathologie urgente, d’après Les Numériques. Ce phénomène de sur-triage s’ajoute au sous-triage des cas graves, créant un double risque : engorgement inutile des services d’urgence d’un côté, mise en danger de patients critiques de l’autre.

Les chercheurs ont également mis en évidence un biais d’ancrage particulièrement préoccupant. Lorsque le scénario intégrait un proche minimisant les symptômes, la probabilité que l’IA abaisse le niveau d’urgence augmentait fortement. Cela signifie que l’intelligence artificielle peut se laisser influencer par des éléments contextuels non médicaux. Or, dans la réalité d’une urgence santé, ces détails narratifs sont fréquents. Un conjoint rassurant, un ami sceptique, une hésitation à déranger les secours : autant de variables humaines que le modèle semble mal interpréter.

L’évaluation ne s’est pas limitée aux urgences somatiques. Les chercheurs ont également examiné les réponses de ChatGPT Santé face à des scénarios de crise suicidaire. Le système est censé afficher une alerte orientant vers la ligne américaine 988 en cas de risque élevé. Pourtant, selon le communiqué de Mount Sinai, les alertes se sont révélées incohérentes. Elles apparaissaient parfois dans des situations à faible risque et, à l’inverse, pouvaient être absentes lorsqu’un utilisateur décrivait explicitement un projet d’auto-mutilation ou pire, de passage à l’acte.

Urgence médicale : pourquoi il faut toujours consulter un médecin

L’étude ne conclut pas à l’inutilité totale de l’intelligence artificielle en santé. En revanche, elle rappelle ses limites structurelles. Un modèle de langage génère des réponses probabilistes à partir de données textuelles. Il ne réalise ni examen clinique, ni prise de constantes, ni observation directe du patient. Il n’assume aucune responsabilité.

De plus, les performances varient selon la formulation de la question, le contexte narratif et les informations fournies. Les 960 interactions analysées montrent que des éléments périphériques peuvent modifier la recommandation finale. Dans un cadre d’urgence, cette variabilité est problématique.

Ainsi, en cas de douleur thoracique, de détresse respiratoire, de perte de connaissance ou de symptômes neurologiques soudains, les recommandations officielles restent inchangées : contacter immédiatement les services d’urgence, le 15 ou le 18 en France, le 112 en Europe. Aucune intelligence artificielle ne remplace l’évaluation d’un médecin, encore moins dans des situations critiques.