Un nouvel outil surmonte un obstacle majeur dans la conception de l'IA clinique

Les scientifiques de la Harvard Professional medical College et leurs collègues de l’Université de Stanford ont développé un outil de diagnostic d’intelligence artificielle qui peut détecter les maladies sur les radiographies pulmonaires directement à partir des descriptions en langage naturel contenues dans les rapports cliniques d’accompagnement.

Cette étape est considérée comme une avancée majeure dans la conception de l’IA clinique, car or truck la plupart des modèles d’IA actuels nécessitent une annotation humaine laborieuse de vastes quantités de données avant que les données étiquetées ne soient introduites dans le modèle pour le previous.

Un rapport sur les travaux, publié le 15 septembre dans Nature Biomedical Engineering, montre que le modèle, appelé CheXzero, est à égalité avec les radiologues humains dans sa capacité à détecter les pathologies sur les radiographies pulmonaires.

L’équipe a mis le code du modèle à la disposition d’autres chercheurs.

La plupart des modèles d’IA nécessitent des ensembles de données étiquetés lors de leur “formation” afin qu’ils puissent apprendre à identifier correctement les pathologies. Ce processus est particulièrement lourd pour les tâches d’interprétation d’images médicales car il implique une annotation à grande échelle par des cliniciens humains, ce qui est souvent coûteux et prend du temps. Par exemple, pour étiqueter un ensemble de données de radiographie pulmonaire, les radiologues experts devraient examiner des centaines de milliers d’images radiographiques une par une et annoter explicitement chacune avec les ailments détectées. Alors que des modèles d’IA furthermore récents ont tenté de résoudre ce problème d’étiquetage en apprenant à partir de données non étiquetées dans une phase de “pré-development”, ils nécessitent finalement un ajustement des données étiquetées pour atteindre des performances élevées.

En revanche, le nouveau modèle est auto-supervisé, en ce sens qu’il apprend de manière moreover indépendante, sans avoir besoin de données étiquetées à la major avant ou après la formation. Le modèle s’appuie uniquement sur les radiographies pulmonaires et les notes en anglais trouvées dans les rapports de radiographie d’accompagnement.

“Nous vivons les premiers jours des modèles d’IA médicale de nouvelle génération capables d’effectuer des tâches flexibles en apprenant directement à partir du texte”, a déclaré le chercheur principal de l’étude, Pranav Rajpurkar, professeur adjoint d’informatique biomédicale à l’Institut Blavatnik du HMS. “Jusqu’à présent, la plupart des modèles d’IA se sont appuyés sur l’annotation manuelle d’énormes quantités de données – à hauteur de 100 000 images – pour atteindre des performances élevées. Notre méthode n’a pas besoin de telles annotations spécifiques à la maladie.

“Avec CheXzero, on peut simplement fournir au modèle une radiographie pulmonaire et le rapport de radiologie correspondant, et il apprendra que l’image et le texte du rapport doivent être considérés comme similaires – en d’autres termes, il apprend à faire correspondre la poitrine X -rays avec leur rapport d’accompagnement”, a ajouté Rajpurkar. “Le modèle est capable d’apprendre éventuellement remark les concepts du texte non structuré correspondent aux modèles visuels de l’image.”

Le modèle a été “formé” sur un ensemble de données accessible au public contenant in addition de 377 000 radiographies pulmonaires et moreover de 227 000 notes cliniques correspondantes. Ses performances ont ensuite été testées sur deux ensembles de données distincts de radiographies pulmonaires et de notes correspondantes recueillies auprès de deux institutions différentes, dont l’une se trouvait dans un pays différent. Cette diversité d’ensembles de données visait à garantir que le modèle fonctionnait aussi bien lorsqu’il était exposé à des notes cliniques pouvant utiliser une terminologie différente pour décrire le même résultat.

Lors des checks, CheXzero a identifié avec succès des pathologies qui n’ont pas été explicitement annotées par des cliniciens humains. Il a surpassé les autres outils d’IA vehicle-supervisés et a fonctionné avec une précision similaire à celle des radiologues humains.

L’approche, selon les chercheurs, pourrait éventuellement être appliquée à des modalités d’imagerie bien au-delà des rayons X, y compris les tomodensitogrammes, les IRM et les échocardiogrammes.

“CheXzero montre que la précision de l’interprétation d’images médicales complexes n’a moreover besoin de rester à la merci de grands ensembles de données étiquetées”, a déclaré le co-leading auteur de l’étude, Ekin Tiu, étudiant de premier cycle à Stanford et chercheur invité au HMS. “Nous utilisons les radiographies pulmonaires comme exemple de conduite, mais en réalité, la capacité de CheXzero est généralisable à un vaste éventail de contextes médicaux où les données non structurées sont la norme, et incarne précisément la promesse de contourner le goulot d’étranglement d’étiquetage à grande échelle qui a tourmenté le domaine de l’apprentissage automatique médical.

Tiu, Ellie Talius et Pujan Patel, tous de Stanford, étaient les co-premiers auteurs de l’article et des chercheurs invités au laboratoire de Rajpurkar. Les autres auteurs de l’étude comprenaient Curtis Langlotz et Andrew Ng, tous deux à Stanford.