L'ADN et l'ARN ont été comparés à des « manuels d'instructions » contenant les informations nécessaires au fonctionnement des « machines » vivantes. Mais alors que les equipment électroniques comme les ordinateurs et les robots sont conçues à partir de zéro pour servir un objectif spécifique, les organismes biologiques sont régis par un ensemble de fonctions beaucoup furthermore compliquées et moreover complexes qui n'ont pas la prévisibilité du code binaire. Pour inventer de nouvelles answers aux problèmes biologiques, il faut séparer les variables apparemment insolubles – une tâche qui est intimidante même pour les cerveaux humains les additionally intrépides.




Deux équipes de scientifiques du Wyss Institute de l'Université Harvard et du Massachusetts Institute of Technologies ont imaginé des voies autour de cet obstacle en allant au-delà du cerveau humain ils ont développé un ensemble d'algorithmes d'apprentissage automatique qui peuvent analyser des rames de séquences « toehold » basées sur l'ARN et prédire celles qui seront les furthermore efficaces pour détecter et répondre à une séquence cible souhaitée. Comme indiqué dans deux article content publiés simultanément aujourd'hui dans Nature Communications, les algorithmes pourraient être généralisables à d'autres problèmes de biologie synthétique également, et pourraient accélérer le développement d'outils biotechnologiques pour améliorer la science et la médecine et aider à sauver des vies.

Les algorithmes de calcul permettent l'identification et l'optimisation des outils basés sur l'ARN pour une myriade d'applications

« Ces réalisations sont passionnantes auto elles marquent le place de départ de notre capacité à poser de meilleures questions sur les principes fondamentaux du repliement de l'ARN, que nous devons connaître afin de réaliser des découvertes significatives et de construire des technologies biologiques utiles », a déclaré Luis Soenksen, Ph. D., boursier postdoctoral au Wyss Institute et Venture Builder à la clinique Jameel du MIT, co-premier auteur du premier des deux articles or blog posts.




Obtenir des interrupteurs de pied

La collaboration entre les scientifiques des données de la Predictive BioAnalytics Initiative du Wyss Institute et les biologistes synthétiques du laboratoire du membre du corps professoral de Wyss Jim Collins au MIT a été créée pour appliquer la puissance de calcul de l'apprentissage automatique, des réseaux de neurones et d'autres architectures algorithmiques à des problèmes complexes en biologie qui ont jusqu'à présent défié la résolution. Pour prouver leur approche, les deux équipes se sont concentrées sur une classe spécifique de molécules d'ARN artificielles: les interrupteurs à pointe, qui sont pliés en forme d'épingle à cheveux dans leur état « off ». Lorsqu'un brin d'ARN complémentaire se lie à une séquence « déclencheur » à la fin d'une extrémité de l'épingle à cheveux, l'interrupteur de maintien se déplie dans son état « activé » et expose les séquences qui étaient auparavant cachées dans l'épingle à cheveux, permettant aux ribosomes de se lier et de traduire un en aval. gène en molécules protéiques. Ce contrôle précis de l'expression des gènes en réponse à la présence d'une molécule donnée fait des commutateurs de pied des composants très puissants pour détecter des substances dans l'environnement, détecter des maladies et à d'autres fins.

Cependant, de nombreux commutateurs de maintien ne fonctionnent pas très bien lorsqu'ils sont testés expérimentalement, même s'ils ont été conçus pour produire une sortie souhaitée en réponse à une entrée donnée basée sur des règles de pliage d'ARN connues. Reconnaissant ce problème, les équipes ont décidé d'utiliser l'apprentissage automatique pour analyser un grand quantity de séquences d'interrupteurs de pied et d'utiliser les informations de cette analyse pour prédire additionally précisément quels pieds exécutent de manière fiable les tâches prévues, ce qui permettrait aux chercheurs d'identifier rapidement des prises de pied de haute qualité pour diverses expériences.

Le premier obstacle auquel ils ont été confrontés était qu'il n'y avait pas de jeu de données de séquences d'interrupteurs de pied suffisamment grand pour que les strategies d'apprentissage en profondeur puissent les analyser efficacement. Les auteurs ont pris sur eux de générer un ensemble de données qui serait utile pour former de tels modèles. « Nous avons conçu et synthétisé une bibliothèque significant de commutateurs orteils, près de 100 000 au overall, en échantillonnant systématiquement des régions de déclenchement courtes le lengthy de l'ensemble des génomes de 23 virus et 906 facteurs de transcription humains », a déclaré Alex Garruss, étudiant diplômé de Harvard travaillant au Wyss Institute qui est le co-leading auteur du premier posting. « L'échelle sans précédent de cet ensemble de données permet l'utilisation de methods avancées d'apprentissage automatique pour identifier et comprendre les commutateurs utiles pour les applications en aval immédiates et la conception potential. »

Armées de suffisamment de données, les équipes ont d'abord utilisé des outils traditionnellement utilisés pour analyser les molécules d'ARN synthétique pour voir si elles pouvaient prédire avec précision le comportement des interrupteurs de pied maintenant qu'il y avait de nombreux autres exemples disponibles. Cependant, aucune des méthodes qu'ils ont essayées – y compris la modélisation mécaniste basée sur la thermodynamique et les caractéristiques physiques – n'a été en mesure de prédire avec une précision suffisante quels orteils fonctionnaient le mieux.

Les chercheurs ont ensuite exploré diverses techniques d'apprentissage automatique pour voir s'ils pouvaient créer des modèles avec de meilleures capacités prédictives. Les auteurs du leading write-up ont décidé d'analyser les commutateurs de pied non pas comme des séquences de bases « Nous connaissons les règles de base sur la manière dont les paires de bases d'une molécule d'ARN se lient les unes aux autres, mais les molécules sont ondulantes – elles n'ont jamais une seule forme parfaite, mais plutôt une probabilité de formes différentes dans lesquelles elles pourraient être », a déclaré Nicolaas Angenent-Mari, étudiant diplômé du MIT travaillant à l'Institut Wyss et co-premier auteur du premier article nous avons donc créé une représentation sous forme d'image de tous les états de pliage possibles de chaque interrupteur de pied, et formé un algorithme d'apprentissage automatique sur ces images afin qu'il puisse reconnaître les motifs subtils indiquant si un une impression donnée serait une bonne ou une mauvaise prise de pied.  »

Un autre avantage de leur approche visuellement basée est que l'équipe a pu « voir » les functions d'une séquence d'interrupteurs de pied sur lesquelles l'algorithme a « prêté attention » le in addition pour déterminer si une séquence donnée était « bonne » ou « mauvaise ». Ils ont nommé cette approche d'interprétation Visualizing Secondary Structure Saliency Maps, ou VIS4Map, et l'ont appliquée à l'ensemble de leur ensemble de données de commutateur de pied. VIS4Map a identifié avec succès les éléments physiques des commutateurs de pied qui ont influencé leurs performances, et a permis aux chercheurs de conclure que les pieds avec des structures internes moreover potentiellement concurrentes étaient in addition « fuites » et donc de moins bonne qualité que ceux avec moins de telles buildings, fournissant un aperçu des mécanismes de pliage de l'ARN qui n’avaient pas été découverts à l’aide des strategies d’analyse traditionnelles.

« Être capable de comprendre et d'expliquer pourquoi certains outils fonctionnent ou ne fonctionnent pas est un objectif secondaire au sein de la communauté de l'intelligence artificielle depuis un particular temps, mais l'interprétabilité doit être au premier strategy de nos préoccupations lors de l'étude de la biologie, car or truck les raisons sous-jacentes de ces les comportements des systèmes ne peuvent souvent pas être intuitifs « , a déclaré Jim Collins, Ph.D., auteur principal du premier article. « Les découvertes et les perturbations significatives sont le résultat d'une compréhension approfondie du fonctionnement de la character, et ce projet démontre que l'apprentissage automatique, lorsqu'il est correctement conçu et appliqué, peut grandement améliorer notre capacité à obtenir des informations importantes sur les systèmes biologiques. Collins est également professeur Termeer de génie médical et de science au MIT.

Maintenant tu parles ma langue

Alors que la première équipe a analysé les séquences d'interrupteurs de pied comme des visuals 2D pour prédire leur qualité, la deuxième équipe a créé deux architectures d'apprentissage en profondeur différentes qui ont abordé le défi à l'aide de approaches orthogonales. Ils sont ensuite allés au-delà de la prédiction de la qualité des pieds et ont utilisé leurs modèles pour optimiser et redessiner des commutateurs de pieds peu performants à des fins différentes, ce qu'ils rapportent dans le deuxième article.

Le leading modèle traite les séquences d'orteil comme des illustrations or photos 1D, ou des lignes de bases nucléotidiques, et identifie les modèles de bases et les interactions potentielles entre ces bases pour prédire de bonnes et mauvaises prises. L'équipe a utilisé ce modèle pour créer une méthode d'optimisation appelée STORM (Sequence-based Toehold Optimization and Redesign Model), qui permet une refonte complète d'une séquence de prise de pied à partir de zéro. Cet outil « ardoise vierge » est exceptional pour générer de nouveaux commutateurs de pied pour effectuer une fonction spécifique dans le cadre d'un circuit génétique synthétique, permettant la création d'outils biologiques complexes.

« Ce qui est vraiment intéressant à propos de STORM et du modèle sous-jacent remet en issue l'hypothèse dominante selon laquelle vous devez générer des ensembles de données massifs chaque fois que vous souhaitez appliquer un algorithme d'apprentissage automatique à un nouveau problème, et suggère que l'apprentissage en profondeur est potentiellement plus applicable aux biologistes synthétiques que nous ne le pensions « , a déclaré le co-premier auteur Jackie Valeri, étudiant diplômé du MIT et du Wyss Institute.

Le deuxième modèle est basé sur le traitement du langage naturel (PNL), et traite chaque séquence d'orteils comme une « phrase » composée de motifs de « mots », apprenant finalement comment certains mots sont assemblés pour previous une phrase cohérente. « J'aime considérer chaque interrupteur de pied comme un poème de haïku: comme un haïku, c'est un arrangement très spécifique de phrases dans sa langue parente – dans ce cas, l'ARN. Nous formons essentiellement ce modèle pour apprendre à écrire un bon haïku en le nourrissant de nombreux exemples « , a déclaré le co-premier auteur Pradeep Ramesh, Ph.D., chercheur postdoctoral invité au Wyss Institute et scientifique en apprentissage automatique à Sherlock Biosciences.

une approche d'optimisation qui leur a permis de redessiner les 9 derniers nucléotides d'un interrupteur de pied donné tout en conservant les 21 nucléotides restants. intact. Cette system permet la création de cale-pieds qui sont conçus pour détecter la présence de séquences d'ARN pathogènes spécifiques, et pourraient être utilisées pour développer de nouveaux assessments diagnostiques.

L'équipe a validé expérimentalement ces deux plates-formes en optimisant les commutateurs de pied conçus pour détecter les fragments du génome viral du SRAS-CoV-2. NuSpeak a amélioré les performances des capteurs de 160% en moyenne, tandis que STORM a créé de meilleures variations de quatre « mauvais » capteurs à ARN viral SARS-CoV-2 dont les performances ont été multipliées par 28.

« Un réel avantage des plates-formes STORM et NuSpeak est qu'elles vous permettent de concevoir et d'optimiser rapidement des composants de biologie synthétique, comme nous l'avons montré avec le développement de capteurs de pied pour un diagnostic COVID-19 », a déclaré le co-leading auteur Katie Collins, un étudiant de premier cycle du MIT à l'Institut Wyss qui a travaillé avec le professeur associé du MIT Timothy Lu, MD, Ph.D., auteur correspondant du deuxième write-up.

« Les approches basées sur les données permises par l'apprentissage automatique ouvrent la porte à des synergies vraiment précieuses entre l'informatique et la biologie synthétique, et nous commençons tout juste à gratter la area », a déclaré Diogo Camacho, Ph.D., auteur correspondant du deuxième report qui est scientifique principal en bioinformatique et co-responsable de la Predictive BioAnalytics Initiative au Wyss Institute. « Peut-être l'aspect le plus significant des outils que nous avons développés dans ces posts est qu'ils sont généralisables à d'autres styles de séquences à foundation d'ARN tels que les promoteurs inductibles et les riboswitches naturels, et peuvent donc être appliqués à un big éventail de problèmes et d'opportunités dans biotechnologie et médecine.  »

Les autres auteurs des article content comprennent le membre du corps professoral de Wyss Core et le professeur de génétique à HMS George Church, Ph.D . et les étudiants diplômés de Wyss et du MIT, Miguel Alcantar et Bianca Lepe.

« L'intelligence artificielle est une imprecise qui begin à peine à avoir un impact sur la science et l'industrie, et qui a un potentiel incroyable pour aider à résoudre des problèmes insolubles. Les percées décrites dans ces études démontrent la puissance de la fusion du calcul avec la biologie synthétique sur le banc pour développer de nouveaux et plus puissants des technologies bioinspirées, en plus de conduire à de nouvelles connaissances sur les mécanismes fondamentaux du contrôle biologique « , a déclaré Don Ingber, MD, Ph.D., directeur fondateur de l'Institut Wyss. Ingber est également professeur Judah Folkman de biologie vasculaire à la Harvard Health care Faculty et du programme de biologie vasculaire du Boston Kid's Medical center, ainsi que professeur de bioingénierie à la John A. Paulson University of Engineering and Utilized Sciences de Harvard.

Ce travail a été soutenu par le programme DARPA Synergistic Discovery and Design, la Protection Danger Reduction Company, le Paul G.Allen Frontiers Group, le Wyss Institute for Biologically Inspired Engineering, l'Université Harvard, l'Institute for Professional medical Engineering and Science, le Massachusetts Institute of Know-how, la Countrywide Science Basis, le Nationwide Human Genome Investigation Institute, le Division of Power, les Nationwide Institutes of Health and fitness et une subvention CONACyT.