ChatGPT réussit l'examen du comité de radiologie

La dernière model de ChatGPT a réussi un examen de sort conseil de radiologie, soulignant le potentiel des grands modèles de langage, mais révélant également les limites qui entravent la fiabilité, selon deux nouvelles études de recherche publiées dans Radiology, un journal de la Radiological Culture of North America (RSNA).

ChatGPT est un chatbot d’intelligence artificielle (IA) qui utilise un modèle d’apprentissage en profondeur pour reconnaître les modèles et les relations entre les mots dans ses vastes données de formation afin de générer des réponses de type humain basées sur une invite. Mais comme il n’y a pas de resource de vérité dans ses données d’entraînement, l’outil peut générer des réponses factuellement incorrectes.

“L’utilisation de grands modèles de langage comme ChatGPT explose et ne fera qu’augmenter”, a déclaré l’auteur principal Rajesh Bhayana, MD, FRCPC, radiologue belly et responsable de la technologie à l’University Healthcare Imaging Toronto, Toronto Common Healthcare facility à Toronto, Canada. “Notre recherche donne un aperçu des performances de ChatGPT dans un contexte de radiologie, soulignant l’incroyable potentiel des grands modèles de langage, ainsi que les restrictions actuelles qui le rendent peu fiable.”

ChatGPT a récemment été nommé l’application grand public à la croissance la additionally rapide de l’histoire, et des chatbots similaires sont intégrés dans des moteurs de recherche populaires comme Google et Bing que les médecins et les sufferers utilisent pour rechercher des informations médicales, a noté le Dr Bhayana.

Pour évaluer ses performances sur les thoughts d’examen du comité de radiologie et explorer ses forces et ses limites, le Dr Bhayana et ses collègues ont d’abord testé ChatGPT basé sur GPT-3.5, actuellement la version la in addition couramment utilisée. Les chercheurs ont utilisé 150 queries à choix multiples conçues pour correspondre au style, au contenu et à la difficulté des examens du Collège royal canadien et de l’American Board of Radiology.

Les concerns n’incluaient pas d’images et étaient regroupées par type de query pour avoir un aperçu de la performance  : réflexion d’ordre inférieur (rappel des connaissances, compréhension de foundation) et d’ordre supérieur (appliquer, analyser, synthétiser). Les thoughts de réflexion d’ordre supérieur ont ensuite été sous-classées par variety (description des résultats d’imagerie, prise en cost clinique, calcul et classification, associations de maladies).

La functionality de ChatGPT a été évaluée globalement et par form de problem et sujet. La confiance dans la langue des réponses a également été évaluée.

Les chercheurs ont découvert que ChatGPT basé sur GPT-3.5 répondait correctement à 69 % des inquiries (104 sur 150), près de la note de passage de 70 % utilisée par le Collège royal au Canada. Le modèle a relativement bien fonctionné sur les concerns nécessitant une réflexion d’ordre inférieur (84 %, 51 sur 61), mais a eu du mal avec les queries impliquant une réflexion d’ordre supérieur (60 %, 53 sur 89). In addition précisément, il a eu du mal avec des inquiries d’ordre supérieur impliquant la description des résultats d’imagerie (61 %, 28 sur 46), le calcul et la classification (25 %, 2 sur 8) et l’application de ideas (30 %, 3 sur 10). Ses faibles performances sur les inquiries de réflexion d’ordre supérieur n’étaient pas surprenantes étant donné son manque de préformation spécifique à la radiologie.

GPT-4 a été publié en mars 2023 sous une forme limitée aux utilisateurs payants, affirmant spécifiquement avoir des capacités de raisonnement avancées améliorées par rapport à GPT-3.5.

Dans une étude de suivi, GPT-4 a répondu correctement à 81 % (121 sur 150) des mêmes concerns, surpassant GPT-3.5 et dépassant le seuil de réussite de 70 %. Le GPT-4 a obtenu de bien meilleurs résultats que le GPT-3.5 sur les concerns de réflexion d’ordre supérieur (81 %), additionally spécifiquement celles impliquant la description des résultats d’imagerie (85 %) et l’application de ideas (90 %).

Les résultats suggèrent que les capacités de raisonnement avancé améliorées revendiquées par GPT-4 se traduisent par des performances améliorées dans un contexte de radiologie. Ils suggèrent également une meilleure compréhension contextuelle de la terminologie spécifique à la radiologie, y compris les descriptions d’imagerie, ce qui est essentiel pour permettre de futures applications en aval.

“Notre étude démontre une amélioration impressionnante des performances de ChatGPT en radiologie sur une courte période, soulignant le potentiel croissant des grands modèles de langage dans ce contexte”, a déclaré le Dr Bhayana.

GPT-4 n’a montré aucune amélioration sur les queries de réflexion d’ordre inférieur (80 % contre 84 %) et a répondu incorrectement à 12 issues auxquelles GPT-3.5 a répondu correctement, soulevant des thoughts liées à sa fiabilité pour la collecte d’informations.

“Nous avons d’abord été surpris par les réponses précises et confiantes de ChatGPT à certaines concerns difficiles de radiologie, mais ensuite tout aussi surpris par certaines affirmations très illogiques et inexactes”, a déclaré le Dr Bhayana. “Bien sûr, compte tenu du fonctionnement de ces modèles, les réponses inexactes ne devraient pas être particulièrement surprenantes.”

La tendance dangereuse de ChatGPT à produire des réponses inexactes, appelées hallucinations, est moins fréquente dans GPT-4, mais limite toujours la convivialité dans la formation et la pratique médicales à l’heure actuelle.

Les deux études ont montré que ChatGPT utilisait un langage confiant de manière cohérente, même lorsqu’il était incorrect. Ceci est particulièrement dangereux si on ne s’y fie qu’à titre d’information, notice le Dr Bhayana, en particulier pour les novices qui peuvent ne pas reconnaître les réponses incorrectes confiantes comme inexactes.

“Pour moi, c’est sa furthermore grande limitation. À l’heure actuelle, ChatGPT est mieux utilisé pour susciter des idées, aider à démarrer le processus de rédaction médicale et dans la synthèse des données. S’il est utilisé pour un rappel rapide des informations, il doit toujours être vérifié”, a déclaré le Dr. dit Bhayana.