La quantité de données générées par les scientifiques aujourd’hui est énorme, grâce à la baisse des coûts de la technologie de séquençage et à l’augmentation de la puissance de calcul disponible. Mais analyser toutes ces données pour découvrir des informations utiles revient à chercher une aiguille moléculaire dans une botte de foin. L’apprentissage automatique (ML) et d’autres outils d’intelligence artificielle (IA) peuvent accélérer considérablement le processus d’analyse des données, mais la plupart des outils ML sont difficiles d’accès et d’utilisation pour les non-authorities en ML. Récemment, des méthodes d’apprentissage automatique (AutoML) ont été développées pour automatiser la conception et le déploiement d’outils ML, mais elles sont souvent très complexes et nécessitent une set up avec ML que peu de scientifiques en dehors du domaine de l’IA possèdent.
Un groupe de scientifiques du Wyss Institute for Biologically Influenced Engineering de l’Université de Harvard et du MIT a maintenant répondu à ce besoin non satisfait en créant une nouvelle plate-forme AutoML complète conçue pour les biologistes ayant peu ou pas d’expérience en ML. Leur plate-forme, appelée BioAutoMATED, peut utiliser des séquences d’acides nucléiques, de peptides ou de glycanes comme données d’entrée, et ses performances sont comparables à celles d’autres plates-formes AutoML tout en nécessitant une intervention minimale de l’utilisateur. La plate-forme est décrite dans un nouvel report publié dans Cell Devices et peut être téléchargée sur GitHub.
“Notre outil est destiné aux personnes qui n’ont pas la possibilité de créer leurs propres modèles de ML personnalisés, qui se posent des queries telles que :” J’ai cet ensemble de données génial, est-ce que ML fonctionnera même pour cela ? Comment puis-je l’intégrer dans un Modèle ML ? La complexité du ML est ce qui m’empêche d’aller as well as loin avec cet ensemble de données, alors comment puis-je surmonter cela ?”, a déclaré le co-premier auteur Jackie Valeri, un étudiant diplômé du laboratoire de Jim Collins, membre de la Wyss Main College. doctorat “Nous voulions permettre aux biologistes et aux industry experts d’autres domaines d’utiliser facilement la puissance du ML et d’AutoML pour répondre à des questions fondamentales et aider à découvrir une biologie qui signifie quelque chose.”
AutoML pour tous
Comme beaucoup de bonnes idées, la graine qui allait devenir BioAutoMATED n’a pas été plantée en laboratoire, mais pendant le déjeuner. Valeri et co-premiers auteurs Luis Soenksen, Ph.D. et Katie Collins mangeaient ensemble à l’une des tables à manger de l’Institut Wyss lorsqu’ils ont réalisé que malgré la réputation de l’Institut en tant que spot de classe mondiale pour la recherche biologique, seule une poignée des meilleurs authorities qui y travaillaient étaient capables de construire et de former des modèles ML qui pourrait grandement profiter à leur travail.
“Nous avons décidé que nous devions faire quelque chose à ce sujet, vehicle nous voulions que le Wyss soit à la pointe de la révolution biotechnologique de l’IA, et nous voulions également que le développement de ces outils soit piloté par des biologistes, pour des biologistes”, a déclaré Soenksen, un boursier postdoctoral à l’Institut Wyss qui est également un entrepreneur en série dans le domaine des sciences et de la technologie. “Maintenant, tout le monde s’accorde à dire que l’IA est l’avenir, mais il y a quatre ans, quand nous avons eu cette idée, ce n’était pas si évident, en particulier pour la recherche biologique. Donc, cela a commencé comme un outil que nous voulions construire pour nous servir nous-mêmes et notre collègues de Wyss, mais nous savons maintenant que cela peut servir beaucoup as well as.”
Bien que divers systèmes AutoML aient déjà été développés pour simplifier le processus de génération de modèles ML à partir d’ensembles de données, ils présentent généralement des inconvénients parmi eux, le fait que chaque outil AutoML est conçu pour examiner un seul sort de modèle (par exemple, les réseaux de neurones) lors de la recherche d’une alternative optimale. Cela limite le modèle résultant à un ensemble restreint de possibilités, alors qu’en réalité, un variety de modèle différent peut être as well as optimum. Un autre problème est que la plupart des outils AutoML ne sont pas conçus spécifiquement pour prendre des séquences biologiques comme données d’entrée. Certains outils ont été développés qui utilisent des modèles de langage pour analyser des séquences biologiques, mais ceux-ci manquent de fonctionnalités d’automatisation et sont difficiles à utiliser.
Pour créer un AutoML tout-en-un robuste pour la biologie, l’équipe a modifié trois outils AutoML existants qui utilisent chacun une approche différente pour générer des modèles : AutoKeras, qui recherche les réseaux de neurones optimaux DeepSwarm, qui utilise des algorithmes basés sur des essaims pour rechercher des réseaux de neurones convolutifs et TPOT, qui recherche des réseaux non neuronaux à l’aide de diverses méthodes, notamment la programmation génétique et l’auto-apprentissage. BioAutoMATED produit ensuite des résultats de sortie standardisés pour les trois outils, afin que l’utilisateur puisse facilement les comparer et déterminer quel style produit les informations les in addition utiles à partir de leurs données.
L’équipe a construit BioAutoMATED pour pouvoir prendre en entrée des séquences d’ADN, d’ARN, d’acides aminés et de glycanes (molécules de sucres présentes à la surface area des cellules) de n’importe quelle longueur, variety ou fonction biologique. BioAutoMATED prétraite automatiquement les données d’entrée, puis génère des modèles qui peuvent prédire les fonctions biologiques à partir des seules informations de séquence.
La plate-forme dispose également d’un particular nombre de fonctionnalités qui aident les utilisateurs à déterminer s’ils ont besoin de collecter des données supplémentaires pour améliorer la qualité de la sortie, à savoir à quelles caractéristiques d’une séquence les modèles ont le as well as « prêté awareness » (et peuvent donc présenter un intérêt furthermore biologique ), et concevoir de nouvelles séquences pour de futures expériences.
Nucléotides et peptides et glycanes, oh mon dieu !
Pour tester leur nouveau cadre, l’équipe l’a d’abord utilisé pour explorer comment la modification de la séquence d’un tronçon d’ARN appelé web-site de liaison du ribosome (RBS) affectait l’efficacité avec laquelle un ribosome pouvait se lier à l’ARN et le traduire en protéine dans Bactérie E. coli. Ils ont introduit leurs données de séquence dans BioAutoMATED, qui a identifié un modèle généré par l’algorithme DeepSwarm qui pourrait prédire avec précision l’efficacité de la traduction. Ce modèle a fonctionné aussi bien que les modèles créés par un pro professionnel en ML, mais a été généré en seulement 26,5 minutes et ne nécessitait que dix lignes de code d’entrée de la part de l’utilisateur (d’autres modèles peuvent en nécessiter in addition de 750). Ils ont également utilisé BioAutoMATED pour identifier les zones de la séquence qui semblaient être les furthermore importantes pour déterminer l’efficacité de la traduction et pour concevoir de nouvelles séquences qui pourraient être testées expérimentalement.
Ils sont ensuite passés à des essais d’introduction de données de séquences de peptides et de glycanes dans BioAutoMATED et à l’utilisation des résultats pour répondre à des questions spécifiques sur ces séquences. Le système a généré des informations très précises sur les acides aminés d’une séquence peptidique qui sont les additionally importants pour déterminer la capacité d’un anticorps à se lier au médicament ranibizumab (Lucentis), et a également classé différents varieties de glycanes en groupes immunogènes et non immunogènes en fonction de leurs séquences.. L’équipe l’a également utilisé pour optimiser les séquences d’interrupteurs de pied à base d’ARN, informant la conception de nouveaux interrupteurs de pied pour des exams expérimentaux avec un minimum de codage d’entrée de la portion de l’utilisateur.
“En fin de compte, nous avons pu montrer que BioAutoMATED aide les gens 1) à reconnaître des modèles dans les données biologiques, 2) à poser de meilleures queries sur ces données et 3) à répondre rapidement à ces issues, le tout dans un cadre distinctive – sans avoir à devenir un ML. specialists eux-mêmes », a déclaré Katie Collins, qui est actuellement étudiante diplômée à l’Université de Cambridge et a travaillé sur le projet pendant ses études de leading cycle au MIT.
Tous les modèles prédits à l’aide de BioAutoMATED, comme avec tout autre outil ML, doivent être validés expérimentalement en laboratoire dans la mesure du attainable. Mais l’équipe espère qu’il pourra être davantage intégré dans l’ensemble sans cesse croissant d’outils AutoML, étendant un jour sa fonction au-delà des séquences biologiques à tout objet de style séquence, comme les empreintes digitales.
“Les outils d’apprentissage automatique et d’intelligence artificielle existent depuis un sure temps maintenant, mais ce n’est qu’avec le développement récent d’interfaces conviviales qu’ils ont explosé en popularité, comme dans le cas de ChatGPT”, a déclaré Jim Collins, qui est également le professeur Termeer de génie médical et de sciences au MIT. “Nous espérons que BioAutoMATED pourra permettre à la prochaine génération de biologistes de découvrir additionally rapidement et furthermore facilement les fondements de la vie.”
“Permettre à des non-professionals d’utiliser ces plateformes est essentiel pour pouvoir exploiter tout le potentiel des approaches de ML pour résoudre des problèmes de longue date en biologie, et au-delà. Cette avancée de l’équipe Collins est une avancée majeure pour faire de l’IA un collaborateur clé. pour les biologistes et les bioingénieurs », a déclaré le directeur fondateur de Wyss, Don Ingber, MD, Ph.D. également professeur Judah Folkman de biologie vasculaire à la Harvard Healthcare College et au Boston Children’s Healthcare facility, et professeur Hansjörg Wyss d’ingénierie bioinspirée à la Harvard John A. Paulson Faculty of Engineering and Applied Sciences (SEAS).
Parmi les autres auteurs de l’article figurent George Cai du Wyss Institute et de la Harvard Medical College les anciens membres de l’Institut Wyss Pradeep Ramesh, Rani Powers, Nicolaas Angenent-Mari et Diogo Camacho et Felix Wong et Timothy Lu du MIT.
Cette recherche a été soutenue par la Protection Danger Reduction Agency (subvention HDTRA-12210032), le programme DARPA SD2, le Paul G. Allen Frontiers Group, le Wyss Institute for Biologically Influenced Engineering, une bourse MIT-Takeda, la subvention CONACyT 342369/408970, et une bourse du Centre MIT-TATA (2748460).