Des chercheurs utilisent l'IA générative pour concevoir de nouvelles protéines

Des chercheurs de l’Université de Toronto ont mis au stage un système d’intelligence artificielle qui peut créer des protéines introuvables dans la nature en utilisant la diffusion générative, la même technologie derrière les plateformes de création d’images populaires telles que DALL-E et Midjourney.

Le système contribuera à faire progresser le domaine de la biologie générative, qui promet d’accélérer le développement de médicaments en rendant la conception et le examination de protéines thérapeutiques entièrement nouvelles additionally efficaces et flexibles.

“Notre modèle apprend des représentations d’images pour générer des protéines entièrement nouvelles, à un rythme très élevé”, explique Philip M. Kim, professeur au Donnelly Centre for Mobile and Biomolecular Analysis de la faculté de médecine Temerty de l’Université de Toronto. “Toutes nos protéines semblent être réelles sur le approach biophysique, ce qui signifie qu’elles se replient dans des configurations qui leur permettent d’effectuer des fonctions spécifiques au sein des cellules.”

Aujourd’hui, la revue Nature Computational Science a publié les résultats, les premiers du style dans une revue à comité de lecture. Le laboratoire de Kim a également publié une pré-impression sur le modèle l’été dernier by using le serveur en accès libre bioRxiv, avant deux pré-impressions similaires de décembre dernier, RF Diffusion de l’Université de Washington et Chroma de Generate Biomedicines.

Les protéines sont fabriquées à partir de chaînes d’acides aminés qui se replient en formes tridimensionnelles, qui à leur tour dictent la fonction des protéines. Ces formes ont évolué sur des milliards d’années et sont variées et complexes, mais aussi limitées en nombre. Avec une meilleure compréhension de la façon dont les protéines existantes se replient, les chercheurs ont commencé à concevoir des modèles de repliement non produits dans la character.

Mais un défi majeur, dit Kim, a été d’imaginer des plis à la fois possibles et fonctionnels. “Il a été très difficile de prédire quels plis seront réels et fonctionneront dans une composition protéique”, explique Kim, qui est également professeur aux départements de génétique moléculaire et d’informatique de l’Université de Toronto. “En combinant des représentations basées sur la biophysique de composition des protéines avec des méthodes de diffusion à partir de l’espace de génération d’images, nous pouvons commencer à résoudre ce problème.”

Le modèle suit la façon dont les images deviennent plus bruyantes, puis exécute le processus en sens inverse, apprenant à transformer des pixels aléatoires en pictures claires qui correspondent à des protéines entièrement nouvelles.

Jin Sub (Michael) Lee, doctorant au laboratoire Kim et premier auteur de l’article, explique que l’optimisation de la première étape de ce processus de génération d’images a été l’un des additionally grands défis de la création de ProteinSGM. “Une idée clé était la représentation appropriée, semblable à une graphic, de la framework des protéines, de sorte que le modèle de diffusion puisse apprendre à générer de nouvelles protéines avec précision”, explique Lee, qui est originaire de Vancouver mais a fait son diplôme de leading cycle en Corée du Sud et sa maîtrise en Suisse avant choisir l’U de T pour son doctorat.

La validation des protéines produites par ProteinSGM a également été difficile. Le système génère de nombreuses structures, souvent différentes de tout ce que l’on trouve dans la nature. Presque tous semblent réels selon les mesures conventional, dit Lee, mais les chercheurs avaient besoin de preuves supplémentaires.

Pour tester leurs nouvelles protéines, Lee et ses collègues se sont d’abord tournés vers OmegaFold, une version améliorée du logiciel AlphaFold 2 de DeepMind. Les deux plates-formes utilisent l’IA pour prédire la structure des protéines sur la base de séquences d’acides aminés.

Avec OmegaFold, l’équipe a confirmé que presque toutes leurs nouvelles séquences se replient dans les structures protéiques souhaitées et également nouvelles. Ils ont ensuite choisi un furthermore petit nombre à créer physiquement dans des tubes à essai, pour confirmer que les structures étaient des protéines et pas seulement des chaînes parasites de composés chimiques.

“Avec des correspondances dans OmegaFold et des assessments expérimentaux en laboratoire, nous pouvions être sûrs qu’il s’agissait de protéines correctement repliées. C’était incroyable de voir la validation de ces replis protéiques entièrement nouveaux qui n’existent nulle aspect dans la character”, déclare Lee.

Les prochaines étapes basées sur ces travaux comprennent le développement ultérieur de ProteinSGM pour les anticorps et d’autres protéines ayant le potentiel thérapeutique le furthermore élevé, a déclaré Kim. “Ce sera un domaine très excitant pour la recherche et l’entrepreneuriat”, ajoute-t-il.

Lee dit qu’il aimerait voir la biologie générative évoluer vers la conception conjointe de séquences et de structures protéiques, y compris les conformations des chaînes latérales des protéines. La plupart des recherches à ce jour se sont concentrées sur la génération de squelettes, les constructions chimiques primaires qui maintiennent les protéines ensemble.

“Les configurations des chaînes latérales déterminent en fin de compte la fonction des protéines, et bien que leur conception signifie une augmentation exponentielle de la complexité, cela peut être achievable avec une ingénierie appropriée”, déclare Lee. “Nous espérons le savoir.”