En appliquant des outils de traitement du langage naturel aux mouvements des molécules de protéines, les scientifiques de l'Université du Maryland ont créé un langage abstrait qui décrit les multiples formes qu'une molécule de protéine peut prendre et remark et quand elle passe d'une forme à une autre.




La fonction d'une molécule de protéine est souvent déterminée par sa forme et sa structure.Par conséquent, comprendre la dynamique qui contrôle la forme et la construction peut ouvrir la porte à tout comprendre, du fonctionnement d'une protéine aux causes de la maladie et à la meilleure façon de concevoir des thérapies médicamenteuses ciblées. C'est la première fois qu'un algorithme d'apprentissage automatique est appliqué à la dynamique biomoléculaire de cette manière, et le succès de la méthode fournit des informations qui peuvent également aider à faire progresser l'intelligence artificielle (IA). Un article de recherche sur ces travaux a été publié le 9 octobre 2020 dans la revue Nature Communications.

« Ici, nous montrons les mêmes architectures d'IA utilisées pour compléter des phrases lors de l'écriture d'e-mails peuvent être utilisées pour découvrir une langue parlée par les molécules de la vie », a déclaré l'auteur principal du doc, Pratyush Tiwary, professeur adjoint au Département de chimie et biochimie de l'UMD et Institut des sciences et technologies physiques. « Nous montrons que le mouvement de ces molécules peut être cartographié dans un langage abstrait, et que les procedures d'IA peuvent être utilisées pour générer des histoires biologiquement véridiques à partir des mots abstraits qui en résultent.




Les molécules biologiques sont constamment en mouvement, s'agitant dans leur environnement. Leur forme est déterminée par la façon dont ils sont pliés et tordus. Ils peuvent rester dans une forme donnée pendant des secondes ou des jours avant de s'ouvrir soudainement et de se replier dans une forme ou une composition différente. La transition d'une forme à une autre se produit un peu comme l'étirement d'une bobine emmêlée qui s'ouvre par étapes. Au fur et à mesure que différentes parties de la bobine se libèrent et se déplient, la molécule prend différentes conformations intermédiaires.

Mais la transition d'une forme à une autre se produit en picosecondes (trillionièmes de seconde) ou as well as rapidement, ce qui rend difficile pour les méthodes expérimentales telles que les microscopes à haute puissance et la spectroscopie de capturer exactement comment le déroulement se produit, quels paramètres affectent le déroulement et quoi différentes formes sont possibles. Les réponses à ces questions forment l'histoire biologique que la nouvelle méthode de Tiwary peut révéler.

Tiwary et son équipe ont appliqué les lois du mouvement de Newton – qui peuvent prédire le mouvement des atomes dans une molécule – avec de puissants superordinateurs, y compris Deepthought2 de l'UMD, pour développer des modèles de physique statistique qui simulent la forme, le mouvement et la trajectoire de molécules individuelles.

Ensuite, ils ont introduit ces modèles dans un algorithme d'apprentissage automatique, comme celui que Gmail utilise pour compléter automatiquement les phrases au fur et à mesure que vous tapez. L'algorithme a abordé les simulations comme un langage dans lequel chaque mouvement moléculaire forme une lettre qui peut être enchaînée avec d'autres mouvements pour créer des mots et des phrases. En apprenant les règles de syntaxe et de grammaire qui déterminent quelles formes et quels mouvements se succèdent et lesquels ne se succèdent pas, l'algorithme prédit comment la protéine se démêle lorsqu'elle change de forme et la variété de formes qu'elle prend en cours de route.

Pour démontrer que leur méthode fonctionne, l'équipe l'a appliquée à une petite biomolécule appelée riboswitch, qui avait été précédemment analysée par spectroscopie. Les résultats, qui ont révélé les différentes formes que le riboswitch pouvait prendre lorsqu'il était étiré, correspondaient aux résultats des études de spectroscopie.

« L'une des utilisations les plus importantes de ceci, je l'espère, est de développer des médicaments très ciblés », a déclaré Tiwary. « Vous voulez avoir des médicaments puissants qui se lient très fortement, mais uniquement à ce à quoi vous voulez qu'ils se lient. Nous pouvons y parvenir si nous pouvons comprendre les différentes formes qu'une biomolécule d'intérêt donnée peut prendre, auto nous pouvons fabriquer des médicaments qui se lient uniquement à l'une de ces formes spécifiques au instant opportun et seulement aussi longtemps que nous le voulons.  »

Une partie tout aussi importante de cette recherche concerne les connaissances acquises sur le système de traitement du langage utilisé par Tiwary et son équipe, généralement appelé réseau de neurones récurrent, et dans ce cas précis, un réseau de mémoire à lengthy terme à courtroom terme. Les chercheurs ont analysé les mathématiques sous-tendant le réseau à mesure qu'il apprenait le langage du mouvement moléculaire. Ils ont découvert que le réseau utilisait une sorte de logique similaire à un notion essential de la physique statistique appelé entropie de chemin. Comprendre cela ouvre des opportunités pour améliorer les réseaux de neurones récurrents à l'avenir.

« Il est naturel de se demander s'il existe des principes physiques directeurs faisant le succès des outils d'IA », a déclaré Tiwary. « Ici, nous découvrons que, en effet, c'est parce que l'IA apprend l'entropie du chemin. Maintenant que nous le savons, elle ouvre as well as de boutons et d'engrenages que nous pouvons régler pour améliorer l'IA pour la biologie et peut-être, de manière ambitieuse, même améliorer l'IA elle-même. Chaque fois que vous comprenez un système complexe tel que l'IA, il devient moins une boîte noire et vous offre de nouveaux outils pour l'utiliser de manière in addition efficace et furthermore fiable. «