Une démonstration scientifique avec l'apprentissage automatique révèle des séquences d'ADN "extrêmes" avec des activités sur mesure

Auparavant, les chercheurs de l’Université de Californie à San Diego qui étudient les séquences d’ADN qui activent les gènes ont utilisé l’intelligence artificielle pour identifier une pièce de puzzle énigmatique liée à l’activation des gènes, un processus fondamental impliqué dans la croissance, le développement et la maladie. À l’aide de l’apprentissage automatique, un form d’intelligence artificielle, le professeur James T. Kadonaga de l’École des sciences biologiques et ses collègues ont découvert la région promotrice centrale en aval (DPR), un code d’activation de l’ADN « passerelle » impliqué dans le fonctionnement d’un tiers des nos gènes.

S’appuyant sur cette découverte, Kadonaga et les chercheurs Extended Vo ngoc et Torrey E. Rhyne ont maintenant utilisé l’apprentissage automatique pour identifier des séquences d’ADN “extrêmes synthétiques” avec des fonctions spécifiquement conçues dans l’activation des gènes. Publiant dans la revue Genes & Improvement, les chercheurs ont testé des thousands and thousands de séquences d’ADN différentes grâce à l’apprentissage automatique (IA) en comparant l’élément d’activation du gène DPR chez l’homme par rapport aux mouches des fruits (drosophile). En utilisant l’IA, ils ont pu trouver des séquences DPR rares et personnalisées qui sont actives chez l’homme mais pas chez les mouches des fruits et vice versa. Moreover généralement, cette approche pourrait désormais être utilisée pour identifier des séquences d’ADN synthétiques ayant des activités qui pourraient être utiles en biotechnologie et en médecine.

“À l’avenir, cette stratégie pourrait être utilisée pour identifier des séquences d’ADN extrêmes synthétiques avec des applications pratiques et utiles. Au lieu de comparer les humains (affliction X) aux mouches des fruits (problem Y), nous pourrions tester la capacité du médicament A (affliction X) mais pas le médicament B (condition Y) pour activer un gène », a déclaré Kadonaga, professeur distingué au Département de biologie moléculaire. “Cette méthode pourrait également être utilisée pour trouver des séquences d’ADN sur mesure qui activent un gène dans le tissu 1 (affliction X) mais pas dans le tissu 2 (condition Y). Il existe d’innombrables purposes pratiques de cette approche basée sur l’IA. L’extrême synthétique Les séquences d’ADN pourraient être très rares, peut-être une sur un million – si elles existent, elles pourraient être trouvées en utilisant l’IA.”

L’apprentissage automatique est une branche de l’IA dans laquelle les systèmes informatiques s’améliorent et apprennent continuellement en fonction des données et de l’expérience. Dans la nouvelle recherche, Kadonaga, Vo ngoc (un ancien chercheur postdoctoral de l’UC San Diego maintenant à Velia Therapeutics) et Rhyne (un associé de recherche du staff) ont utilisé une méthode connue sous le nom de régression vectorielle de guidance pour “former” des modèles d’apprentissage automatique avec 200 000 séquences d’ADN établies. basé sur des données d’expériences de laboratoire dans le monde réel. Ce sont les objectifs présentés comme exemples pour le système d’apprentissage automatique. Ils ont ensuite “introduit” 50 tens of millions de séquences d’ADN de exam dans les systèmes d’apprentissage automatique pour les humains et les mouches des fruits et leur ont demandé de comparer les séquences et d’identifier des séquences uniques dans les deux énormes ensembles de données.

Alors que les systèmes d’apprentissage automatique ont montré que les séquences humaines et de mouches des fruits se chevauchaient largement, les chercheurs se sont concentrés sur la query centrale de savoir si les modèles d’IA pouvaient identifier de rares cas où l’activation des gènes est très lively chez l’homme mais pas chez les mouches des fruits. La réponse a été un “oui” retentissant. Les modèles d’apprentissage automatique ont réussi à identifier des séquences d’ADN spécifiques à l’homme (et à la mouche des fruits). Il est critical de noter que les fonctions prédites par l’IA des séquences extrêmes ont été vérifiées dans le laboratoire de Kadonaga en utilisant des méthodes de examination conventionnelles (laboratoire humide).

“Avant de nous lancer dans ce travail, nous ne savions pas si les modèles d’IA étaient suffisamment “intelligents” pour prédire les activités de 50 tens of millions de séquences, en particulier des séquences “extrêmes” aberrantes avec des activités inhabituelles. Il est donc très impressionnant et assez remarquable que le Les modèles d’IA pourraient prédire les activités des rares séquences extrêmes d’une sur un million”, a déclaré Kadonaga, qui a ajouté qu’il serait pratiquement extremely hard de mener les 100 thousands and thousands d’expériences comparables en laboratoire humide que la technologie d’apprentissage automatique a analysées depuis chaque laboratoire humide. l’expérience prendrait près de trois semaines.

Les séquences rares identifiées par le système d’apprentissage automatique servent de démonstration réussie et préparent le terrain pour d’autres utilisations de l’apprentissage automatique et d’autres systems d’IA en biologie.

“Dans la vie de tous les jours, les gens trouvent de nouvelles applications pour les outils d’IA tels que ChatGPT. Ici, nous avons démontré l’utilisation de l’IA pour la conception d’éléments d’ADN personnalisés dans l’activation des gènes. Cette méthode devrait avoir des applications pratiques dans la biotechnologie et la recherche biomédicale, », a déclaré Kadonaga. “Furthermore généralement, les biologistes sont probablement au tout début de l’exploitation de la puissance de la technologie de l’IA.”