in

Une nouvelle étude met en évidence les problèmes qui peuvent survenir lorsque les données publiées pour une tâche sont utilisées pour former des algorithmes pour une autre

Les progrès significatifs de l’intelligence artificielle (IA) au cours de la dernière décennie ont reposé sur une development approfondie d’algorithmes utilisant des bases de données massives et open source., selon une nouvelle étude menée par des chercheurs de l’Université de Californie à Berkeley et du Université du Texas à Austin.

Les résultats, publiés cette semaine dans les Actes de l’Académie nationale des sciences, mettent en évidence les problèmes qui surviennent lorsque les données publiées pour une tâche sont utilisées pour entraîner des algorithmes pour une autre.

Les chercheurs ont remarqué ce problème lorsqu’ils n’ont pas réussi à reproduire les résultats prometteurs d’une étude d’imagerie médicale. nous avons réalisé que les données d’image utilisées dans l’article avaient été prétraitées”, a déclaré le chercheur principal de l’étude, Michael Lustig, professeur de génie électrique et d’informatique à l’UC Berkeley. “Nous voulions sensibiliser au problème afin que les chercheurs puissent être in addition prudents et publier des résultats plus réalistes.”

Les algorithmes de reconstruction d’image décodent ensuite les mesures pour produire les images que les cliniciens utilisent pour les diagnostics.

Certains ensembles de données, comme le célèbre ImageNet, comprennent des tens of millions d’images. Les ensembles de données qui incluent des images médicales peuvent être utilisés pour former des algorithmes d’IA utilisés pour décoder les mesures obtenues lors d’un scan. L’auteur principal de l’étude, Efrat Shimron, chercheur postdoctoral dans le laboratoire de Lustig, a déclaré que les nouveaux chercheurs inexpérimentés en IA ne savent peut-être pas que les fichiers de ces bases de données médicales sont souvent prétraités et non bruts.

les fichiers d’images brutes contiennent plus de données que leurs homologues compressés, il est donc important de former des algorithmes d’IA sur des bases de données de mesures IRM brutes. Mais ces bases de données sont rares, de sorte que les développeurs de logiciels téléchargent parfois des bases de données avec des images RM traitées. puis les utilisent pour développer leurs algorithmes de reconstruction d’images.

a déclaré Shimron.”

Trop beau pour être vrai

Lorsque des données traitées étaient utilisées

“Le problème est que ces résultats étaient trop beaux pour être vrais”, a déclaré Shimron.

Les autres co-auteurs de l’étude sont Jonathan Tamir, professeur adjoint en génie électrique et informatique à l’Université du Texas à Austin, et Ke Wang, UC Berkeley Ph.D. étudiant dans le laboratoire de Lustig. Les chercheurs ont effectué d’autres checks pour démontrer les effets des fichiers d’images traités sur les algorithmes de reconstruction d’images.

Ils ont formé trois algorithmes de reconstruction d’images à l’aide de ces ensembles de données

a déclaré Shimron. “La différence est fortement corrélée à l’étendue du traitement des données.”

Des résultats “trop ​​optimistes”

Les chercheurs ont également étudié le risque potentiel d’utiliser des algorithmes pré-formés dans une configuration clinique.

a déclaré Shimron.”

Les images peuvent sembler excellentes, mais elles sont inexactes, ont déclaré les auteurs de l’étude. “Dans certains cas extrêmes, de petits détails cliniquement importants liés à la pathologie pourraient être complètement absents”, a déclaré Shimron.

les résultats ne peuvent pas être reproduits avec des données cliniques ou de scanner brutes. Ces résultats “trop ​​optimistes” révèlent le risque de traduire des algorithmes biaisés en pratique clinique, ont déclaré les chercheurs.

“Personne ne peut prédire remark ces méthodes fonctionneront dans la pratique clinique, et cela crée un obstacle à l’adoption clinique”, a déclaré Tamir, qui a obtenu son doctorat. en génie électrique et en informatique à l’UC Berkeley et était un ancien membre du laboratoire de Lustig. “Cela rend également difficile la comparaison de diverses méthodes concurrentes.”

Shimron a déclaré qu’il était significant de révéler de tels “délits de données”. Elle a déclaré que les conservateurs de données pourraient aider en fournissant une description complète sur leur web page Internet des techniques utilisées pour traiter les fichiers de leur ensemble de données. De as well as.

Le financement du National Institute of Biomedical Imaging and Bioengineering et du Countrywide Science Foundation Institute for Foundations of Equipment Learning a aidé à soutenir cette recherche.