Les informaticiens de l’Université Rice envoient RAMBO pour sauver les chercheurs en génomique qui attendent parfois des jours ou des semaines pour les résultats de la recherche dans d’énormes bases de données ADN.



Le séquençage de l’ADN est si populaire, les ensembles de données génomiques doublent de taille tous les deux ans et les outils pour rechercher les données n’ont pas suivi le rythme. Les chercheurs qui comparent l’ADN à travers les génomes ou étudient l’évolution d’organismes comme le virus qui cause le COVID-19 attendent souvent des semaines que le logiciel indexe de grandes bases de données  » métagénomiques « , qui grossissent chaque mois et sont désormais mesurées en pétaoctets.

RAMBO, qui est l’abréviation de  » filtre de floraison répété et fusionné « , est une nouvelle méthode qui peut réduire les temps d’indexation de ces bases de données de semaines en heures et les temps de recherche en heures en secondes. Les informaticiens de l’Université Rice ont présenté RAMBO la semaine dernière à la conférence SIGMOD 2021 de l’Association for Computing Machinery.



« L’interrogation de tens of millions de séquences d’ADN sur une grande foundation de données avec des approches traditionnelles peut prendre plusieurs heures sur un grand cluster de calcul et peut prendre plusieurs semaines sur un seul serveur », a déclaré le co-créateur de RAMBO, Todd Treangen, un informaticien de Rice dont le laboratoire est spécialisé en métagénomique.. « La réduction des temps d’indexation des bases de données, en plus des temps de requête, est d’une relevance cruciale auto la taille des bases de données génomiques continue de croître à un rythme incroyable. »

Pour résoudre le problème, Treangen s’est associé à l’informaticien de Rice Anshumali Shrivastava, spécialisé dans la création d’algorithmes qui rendent le large data et l’apprentissage automatique additionally rapides et moreover évolutifs, et les étudiants diplômés Gaurav Gupta et Minghao Yan, co-auteurs principaux de la conférence à comité de lecture. papier sur RAMBO.

RAMBO utilise une framework de données qui a un temps de requête nettement furthermore rapide que les méthodes d’indexation du génome de pointe ainsi que d’autres avantages comme la facilité de parallélisation, un taux de fake négatifs nul et un faible taux de fake positifs.

« Le temps de recherche de RAMBO est jusqu’à 35 fois additionally rapide que les méthodes existantes », a déclaré Gupta, doctorant en génie électrique et informatique. Dans des expériences utilisant un ensemble de données de 170 téraoctets de génomes microbiens, Gupta a déclaré que RAMBO a réduit les temps d’indexation de « six semaines sur un cluster sophistiqué et dédié à neuf heures sur un cluster de produits partagés ».

Yan, un doctorant en informatique, a déclaré :  » Sur cette énorme archive, RAMBO peut rechercher une séquence de gènes en quelques millisecondes, voire en quelques millisecondes, en utilisant un serveur conventional de 100 devices.

RAMBO améliore les performances des filtres Bloom, une system de recherche vieille d’un demi-siècle qui a été appliquée à la recherche de séquences génomiques dans un specified nombre d’études précédentes. RAMBO améliore les méthodes de filtrage Bloom antérieures pour la recherche génomique en utilisant une framework de données probabiliste connue sous le nom d’esquisse count-min qui « conduit à un meilleur compromis en termes de temps de requête et de mémoire » que les méthodes précédentes, et « dépasse les lignes de foundation actuelles en réalisant un structure de données d’indexation très robuste, à faible mémoire et ultrarapide « , ont écrit les auteurs dans l’étude.

Gupta et Yan ont déclaré que RAMBO a le potentiel de démocratiser la recherche génomique en permettant à presque tous les laboratoires de rechercher rapidement et à moindre coût d’énormes archives génomiques avec des ordinateurs du commerce.

« RAMBO pourrait réduire le temps d’attente pour des tonnes d’enquêtes en bio-informatique, telles que la recherche de la présence du SRAS-CoV-2 dans les métagénomes des eaux usées à travers le monde », a déclaré Yan. « RAMBO pourrait jouer un rôle déterminant dans l’étude de la génomique du most cancers et de l’évolution du génome bactérien, par exemple. »

Shrivastava est professeur agrégé d’informatique et Treangen est professeur adjoint d’informatique.

Les co-auteurs supplémentaires de l’étude incluent Benjamin Coleman, Bryce Kille, Leo Elworth et Tharun Medini.

La recherche a été financée par cette Nationwide Science Foundation, le Bureau de la recherche scientifique de l’Air Pressure et le Bureau de la recherche navale.