L'apprentissage automatique est un outil informatique utilisé par de nombreux biologistes pour analyser d'énormes quantités de données et les aider à identifier de nouveaux médicaments potentiels. Les chercheurs du MIT ont maintenant intégré une nouvelle fonctionnalité dans ces types d'algorithmes d'apprentissage automatique, améliorant ainsi leur capacité de prédiction.




En utilisant cette nouvelle approche, qui permet aux modèles informatiques de tenir compte de l'incertitude des données qu'ils analysent, l'équipe du MIT a identifié plusieurs composés prometteurs qui ciblent une protéine requise par les bactéries responsables de la tuberculose.

L'apprentissage automatique révèle de nouveaux médicaments antituberculeux potentiels

Cette méthode, qui a déjà été utilisée par les informaticiens mais n'a pas décollé en biologie, pourrait également s'avérer utile dans la conception de protéines et dans de nombreux autres domaines de la biologie, explique Bonnie Berger, professeur de mathématiques Simons et chef du groupe Calcul et biologie au Laboratoire d'informatique et d'intelligence artificielle du MIT (CSAIL).




« Cette method fait partie d'un sous-domaine connu de l'apprentissage automatique, mais les gens ne l'ont pas amenée à la biologie », dit Berger. « C'est un changement de paradigme, et c'est absolument ainsi que l'exploration biologique doit être menée. »

Berger et Bryan Bryson, professeur adjoint de génie biologique au MIT et membre du Ragon Institute of MGH, MIT et Harvard, sont les principaux auteurs de l'étude, qui apparaît aujourd'hui dans Cell Devices. Brian Hie, étudiant diplômé du MIT, est l'auteur principal de l'article.

De meilleures prédictions

L'apprentissage automatique est un style de modélisation informatique dans lequel un algorithme apprend à faire des prédictions basées sur des données qu'il a déjà vues. Ces dernières années, les biologistes ont commencé à utiliser l'apprentissage automatique pour parcourir d'énormes bases de données de composés médicamenteux potentiels afin de trouver des molécules qui interagissent avec des cibles particulières.

Une limitation de cette méthode est que si les algorithmes fonctionnent bien lorsque les données qu'ils analysent sont similaires aux données sur lesquelles ils ont été entraînés, ils ne sont pas très bons pour évaluer des molécules très différentes de celles qu'ils ont déjà vues.

Pour surmonter cela, les chercheurs ont utilisé une strategy appelée processus gaussien pour attribuer des valeurs d'incertitude aux données sur lesquelles les algorithmes sont entraînés. De cette façon, lorsque les modèles analysent les données d'entraînement, ils prennent également en compte la fiabilité de ces prédictions.

Par exemple, si les données entrant dans le modèle prédisent la force avec laquelle une molécule particulière se lie à une protéine cible, ainsi que l'incertitude de ces prédictions, le modèle peut utiliser ces informations pour faire des prédictions pour les interactions protéine-cible qu'il n'a pas. Déjà vu. Le modèle estime également la certitude de ses propres prévisions. Lors de l'analyse de nouvelles données, les prédictions du modèle peuvent avoir une certitude moindre pour des molécules très différentes des données d'entraînement. Les chercheurs peuvent utiliser ces informations pour les aider à décider des molécules à tester expérimentalement.

Un autre avantage de cette approche est que l'algorithme ne nécessite qu'une petite quantité de données d'apprentissage. Dans cette étude, l'équipe du MIT a formé le modèle avec un ensemble de données de 72 petites molécules et leurs interactions avec plus de 400 protéines appelées protéines kinases. Ils ont ensuite pu utiliser cet algorithme pour analyser près de 11 000 petites molécules, qu'ils ont extraites de la foundation de données ZINC, un référentiel available au general public qui contient des hundreds of thousands de composés chimiques. Beaucoup de ces molécules étaient très différentes de celles des données d'entraînement.

En utilisant cette approche, les chercheurs ont pu identifier des molécules avec de très fortes affinités de liaison prédites pour les protéines kinases qu'ils ont introduites dans le modèle. Ceux-ci comprenaient trois kinases humaines, ainsi qu'une kinase trouvée dans Mycobacterium tuberculosis. Cette kinase, PknB, est essentielle à la survie des bactéries, mais n'est ciblée par aucun antibiotique de première ligne contre la tuberculose.

Les chercheurs ont ensuite testé expérimentalement certains de leurs meilleurs résultats pour voir dans quelle mesure ils se lient réellement à leurs cibles, et ont constaté que les prédictions du modèle étaient très précises. Parmi les molécules auxquelles le modèle attribuait la moreover grande certitude, environ 90% se sont révélées être de véritables succès – bien furthermore que le taux de réussite de 30 à 40% des modèles d'apprentissage automatique existants utilisés pour les criblages de médicaments.

Les chercheurs ont également utilisé les mêmes données d'entraînement pour previous un algorithme d'apprentissage automatique traditionnel, qui n'intègre pas d'incertitude, puis l'ont fait analyser la même bibliothèque de 11 000 molécules. « Sans incertitude, le modèle devient horriblement confus et suggest des constructions chimiques très étranges comme interagissant avec les kinases », dit Hie.

Les chercheurs ont ensuite pris certains de leurs inhibiteurs de PknB les additionally prometteurs et les ont testés contre Mycobacterium tuberculosis cultivé dans des milieux de lifestyle bactériens, et ont découvert qu'ils inhibaient la croissance bactérienne. Les inhibiteurs ont également fonctionné dans les cellules immunitaires humaines infectées par la bactérie.

Un bon place de départ

Un autre élément essential de cette approche est qu'une fois que les chercheurs obtiennent des données expérimentales supplémentaires, ils peuvent les ajouter au modèle et le recycler, améliorant ainsi les prévisions. Même une petite quantité de données peut aider le modèle à s'améliorer, disent les chercheurs.

« Vous n'avez pas vraiment besoin d'ensembles de données très volumineux à chaque itération », déclare Hie. « Vous pouvez simplement recycler le modèle avec peut-être 10 nouveaux exemples, ce qu'un biologiste peut facilement générer. »

Cette étude est la première depuis de nombreuses années à proposer de nouvelles molécules capables de cibler le PknB et devrait donner aux développeurs de médicaments un bon point de départ pour essayer de développer des médicaments ciblant la kinase, explique Bryson. « Nous leur avons maintenant fourni de nouvelles pistes au-delà de ce qui a déjà été publié », dit-il.

Les chercheurs ont également montré qu'ils pouvaient utiliser ce même variety d'apprentissage automatique pour augmenter la sortie fluorescente d'une protéine fluorescente verte, qui est couramment utilisée pour marquer les molécules à l'intérieur des cellules vivantes. Il pourrait également être appliqué à de nombreux autres kinds d'études biologiques, dit Berger, qui l'utilise maintenant pour analyser les mutations qui stimulent le développement de la tumeur.

La recherche a été financée par le département américain de la Défense dans le cadre de la bourse d'études supérieures en sciences et en génie de la défense nationale les instituts nationaux de la santé le Ragon Institute of MGH, MIT, and Harvard ‘et le département de génie biologique du MIT.