Les chercheurs du MDC ont développé un nouvel outil qui permet de maximiser in addition facilement la puissance de l’apprentissage en profondeur pour étudier la génomique. Ils décrivent la nouvelle approche, Janggu, dans la revue Character Communications.



Imaginez qu’avant de pouvoir préparer le dîner, vous deviez d’abord reconstruire la cuisine, spécialement conçue pour chaque recette. Vous passeriez bien plus de temps à préparer qu’à cuisiner. Pour les biologistes computationnels, il s’agit d’un processus prolonged et similaire d’analyse des données génomiques. Avant même de pouvoir commencer leur analyse, ils passent beaucoup de temps à formater et à préparer d’énormes ensembles de données à intégrer dans les modèles d’apprentissage en profondeur.

Pour rationaliser ce processus, des chercheurs du Centre Max Delbrueck de médecine moléculaire de l’Association Helmholtz (MDC) ont développé un outil de programmation universel qui convertit une grande variété de données génomiques dans le structure requis pour l’analyse par des modèles d’apprentissage profond. « Avant, vous finissiez par perdre beaucoup de temps sur l’aspect technique, plutôt que de vous concentrer sur la dilemma biologique à laquelle vous tentiez de répondre », explique le Dr Wolfgang Kopp, un scientifique du groupe de recherche Bioinformatique et Omique Facts Science au MDC de Berlin. Institut de biologie des systèmes médicaux (BIMSB) et premier auteur de l’article. « Avec Janggu, nous visons à alléger une partie de ce fardeau strategy et à le rendre obtainable au in addition grand nombre. »



Nom distinctive, option universelle

Janggu tire son nom d’un tambour coréen traditionnel en forme de sablier tourné sur le côté. Les deux grandes sections du sablier représentent les domaines sur lesquels Janggu se concentre: le prétraitement des données génomiques, la visualisation des résultats et l’évaluation du modèle. Le connecteur étroit au milieu représente un espace réservé pour tout style de modèle d’apprentissage en profondeur que les chercheurs souhaitent utiliser.

Les modèles d’apprentissage en profondeur impliquent des algorithmes triant des quantités massives de données et trouvant des caractéristiques ou des modèles pertinents. Bien que l’apprentissage en profondeur soit un outil très puissant, son utilisation en génomique a été limitée. La plupart des modèles publiés ont tendance à fonctionner uniquement avec des types de données fixes, capables de répondre à une seule problem spécifique. L’échange ou l’ajout de nouvelles données nécessite souvent de tout recommencer à zéro et d’importants attempts de programmation.

Janggu convertit différents forms de données génomiques en un structure universel qui peut être connecté à n’importe quel modèle d’apprentissage automatique ou d’apprentissage en profondeur qui utilise python, un langage de programmation largement utilisé.

« Ce qui rend notre approche spéciale, c’est que vous pouvez facilement utiliser n’importe quel ensemble de données génomiques pour votre problème d’apprentissage en profondeur, tout se passe dans n’importe quel format », Dr. Altuna Akalin, qui dirige le groupe de recherche Bioinformatique et Omics Information Science.

La séparation est la clé

Le groupe de recherche d’Akalin a une double mission: développer de nouveaux outils d’apprentissage automatique et les utiliser pour étudier des concerns en biologie et en médecine. Au cours de leurs propres efforts de recherche, ils étaient continuellement frustrés par le temps passé à mettre en forme les données. Ils ont réalisé qu’une partie du problème était que chaque modèle d’apprentissage en profondeur comprenait son propre prétraitement des données. En séparant l’extraction et la mise en forme des données de l’analyse, il offre un moyen beaucoup furthermore facile d’échanger, de combiner ou de réutiliser des sections de données. C’est un peu comme avoir tous les ustensiles de cuisine et les ingrédients à portée de main pour essayer une nouvelle recette.

« La difficulté était de trouver le bon équilibre entre flexibilité et convivialité », explique Kopp. « S’il est trop versatile, les gens seront noyés dans différentes options et il sera difficile de commencer. »

Kopp a préparé plusieurs didacticiels pour aider les autres à commencer à utiliser Janggu, ainsi que des exemples de jeux de données et des études de cas. L’article de Nature Communications démontre la polyvalence de Janggu dans la gestion de très grands volumes de données, la combinaison de flux de données et la réponse à différents kinds de concerns, telles que la prédiction des web sites de liaison à partir de séquences d’ADN et / ou l’accessibilité de la chromatine, ainsi que pour les tâches de classification et de régression.

Des programs infinies

Alors que la plupart des avantages de Janggu sont sur le entrance, les chercheurs voulaient fournir une solution complète pour l’apprentissage en profondeur. Janggu inclut également la visualisation des résultats après l’analyse en profondeur et évalue ce que le modèle a appris. Notamment, l’équipe a incorporé un « codage de séquence d’ordre supérieur » dans le bundle, ce qui permet de capturer les corrélations entre les nucléotides voisins. Cela a permis d’augmenter la précision de certaines analyses. En rendant l’apprentissage en profondeur plus facile et moreover convivial, Janggu aide à ouvrir la porte à répondre à toutes sortes de inquiries biologiques.

« L’une des programs les additionally intéressantes consiste à prédire l’effet des mutations sur la régulation des gènes », explique Akalin. « C’est passionnant parce que maintenant nous pouvons commencer à comprendre les génomes individuels, par exemple, nous pouvons identifier les variantes génétiques qui provoquent des changements de régulation, ou nous pouvons interpréter les mutations de régulation se produisant dans les tumeurs. »