Pour de nombreux patients, Web constitue un outil puissant d’auto-éducation sur des sujets médicaux. Avec ChatGPT désormais à portée de major des sufferers, des chercheurs du Brigham and Women’s Medical center, membre fondateur du système de santé Mass General Brigham, ont évalué la cohérence avec laquelle le chatbot à intelligence artificielle fournit des recommandations pour le traitement du most cancers qui s’alignent sur les directives du Countrywide Detailed Most cancers Network (NCCN). Leurs résultats, publiés dans JAMA Oncology, montrent que dans approximativement un tiers des cas, ChatGPT 3.5 a fourni une recommandation inappropriée (« non concordante »), soulignant la nécessité de prendre conscience des limites de la technologie.
“Les people devraient se sentir habilités à se renseigner sur leurs problèmes de santé, mais ils devraient toujours en discuter avec un clinicien, et les ressources sur World-wide-web ne devraient pas être consultées de manière isolée”, a déclaré l’auteur correspondant Danielle Bitterman, MD, du Département de radio-oncologie et le programme d’intelligence artificielle en médecine (Goal) du Mass Common Brigham. “Les réponses de ChatGPT peuvent ressembler beaucoup à celles d’un humain et peuvent être assez convaincantes. Mais lorsqu’il s’agit de prise de décision clinique, il y a tellement de subtilités pour la circumstance exclusive de chaque patient. Une bonne réponse peut être très nuancée, et pas nécessairement quelque selected ChatGPT ou un autre grand modèle de langage peut le fournir.”
L’émergence d’outils d’intelligence artificielle dans le domaine de la santé a été révolutionnaire et pourrait potentiellement remodeler positivement le continuum de soins. Mass Typical Brigham, en tant que l’un des meilleurs systèmes de santé universitaires intégrés et des in addition grandes entreprises d’innovation du pays, ouvre la voie en menant des recherches rigoureuses sur les systems nouvelles et émergentes pour éclairer l’incorporation responsable de l’IA dans la prestation des soins, le soutien de la major-d’œuvre et les processus administratifs.
Bien que la prise de décision médicale puisse être influencée par de nombreux facteurs, Bitterman et ses collègues ont choisi d’évaluer dans quelle mesure les recommandations de ChatGPT s’alignent sur les lignes directrices du NCCN, utilisées par les médecins des établissements de tout le pays. Ils se sont concentrés sur les trois cancers les as well as courants (cancer du sein, de la prostate et du poumon) et ont incité ChatGPT à proposer une approche thérapeutique pour chaque cancer en fonction de la gravité de la maladie. Au whole, les chercheurs ont inclus 26 descriptions de diagnostic uniques et ont utilisé quatre invitations légèrement différentes pour demander à ChatGPT de proposer une approche thérapeutique, générant un full de 104 invites.
Presque toutes les réponses (98 %) incluaient au moins une approche thérapeutique conforme aux directives du NCCN. Cependant, les chercheurs ont constaté que 34 pour cent de ces réponses comprenaient également une ou plusieurs recommandations non concordantes, parfois difficiles à détecter au milieu d’orientations autrement solides. Une recommandation de traitement non concordante était définie comme une recommandation qui n’était que partiellement correcte par exemple, pour un most cancers du sein localement avancé, une recommandation de chirurgie seule, sans point out d’une autre modalité thérapeutique. Notamment, un accord complet dans la notation n’a eu lieu que dans 62 % des cas, soulignant à la fois la complexité des lignes directrices du NCCN elles-mêmes et la mesure dans laquelle les résultats de ChatGPT pourraient être vagues ou difficiles à interpréter.
Dans 12,5 pour cent des cas, ChatGPT a produit des « hallucinations » ou une recommandation de traitement totalement absente des directives du NCCN. Celles-ci comprenaient des recommandations de thérapies nouvelles ou de thérapies curatives pour les cancers non curatifs. Les auteurs ont souligné que cette forme de désinformation peut définir de manière incorrecte les attentes des patients concernant le traitement et potentiellement avoir un effect sur la relation clinicien-individual.
À l’avenir, les chercheurs étudient dans quelle mesure les individuals et les cliniciens peuvent faire la difference entre les conseils médicaux rédigés par un clinicien et ceux d’un grand modèle de langage (LLM) comme ChatGPT. Ils incitent également ChatGPT à présenter des cas cliniques plus détaillés pour évaluer davantage ses connaissances cliniques.
Les auteurs ont utilisé GPT-3.5-turbo-0301, l’un des furthermore grands modèles disponibles au minute où ils ont mené l’étude et la classe de modèles actuellement utilisée dans la edition en libre accès de ChatGPT (une model moreover récente, GPT-4, est disponible uniquement avec l’abonnement payant). Ils ont également utilisé les lignes directrices du NCCN 2021, automobile GPT-3.5-turbo-0301 a été développé à partir de données datant de septembre 2021. Bien que les résultats puissent varier si d’autres LLM et/ou lignes directrices cliniques sont utilisés, les chercheurs soulignent que de nombreux LLM sont similaires dans le la manière dont ils sont construits et les limites qu’ils possèdent.
“Il s’agit d’une question de recherche ouverte quant à savoir dans quelle mesure les LLM fournissent des réponses logiques cohérentes, vehicle des “hallucinations” sont souvent observées”, a déclaré le premier auteur Shan Chen, MS, du programme Purpose. “Les utilisateurs sont susceptibles de chercher des réponses auprès des LLM pour se renseigner sur des sujets liés à la santé – de la même manière que les recherches Google ont été utilisées. Dans le même temps, nous devons faire prendre conscience que les LLM ne sont pas l’équivalent de professionnels de la santé formés. “