L'instantané le plus clair de la diversité génomique humaine

Depuis moreover de 20 ans, les scientifiques se sont appuyés sur le génome humain de référence, une séquence génétique consensuelle, comme référence pour comparer d’autres données génétiques. Utilisé dans d’innombrables études, le génome de référence a permis, entre autres, d’identifier des gènes impliqués dans des maladies spécifiques et de retracer l’évolution de features humains.

Mais cela a toujours été un outil défectueux. L’un de ses moreover gros problèmes est qu’environ 70% de ses données proviennent d’un seul homme d’origine majoritairement afro-européenne dont l’ADN a été séquencé lors du projet du génome humain, le leading effort pour capturer tout l’ADN d’une personne. En conséquence, il ne peut nous en dire que peu de choses sur les, 2 à 1 % de séquence génétique qui rendent chacun des sept milliards d’habitants de cette planète différents les uns des autres, créant un biais inhérent dans les données biomédicales que l’on pense être responsables de certains problèmes de santé. disparités affectant les individuals aujourd’hui. De nombreuses variantes génétiques trouvées dans des populations non européennes, par exemple, ne sont pas du tout représentées dans le génome de référence.

Depuis des années, les chercheurs réclament une ressource furthermore inclusive de la diversité humaine pour diagnostiquer les maladies et orienter les traitements médicaux. Aujourd’hui, les scientifiques du Human Pangenome Reference Consortium ont fait des progrès révolutionnaires dans la caractérisation de la portion d’ADN humain qui varie d’un individu à l’autre. Comme ils l’ont récemment publié dans Character, ils ont assemblé des séquences génomiques de 47 personnes du monde entier dans un soi-disant pangénome dans lequel in addition de 99 % de chaque séquence est rendue avec une grande précision.

Superposées les unes sur les autres, ces séquences ont révélé près de 120 hundreds of thousands de paires de bases d’ADN inédites.

Bien qu’il s’agisse toujours d’un travail en cours, le pangénome est general public et peut être utilisé par les scientifiques du monde entier comme nouvelle référence typical du génome humain, déclare Erich D. Jarvis de l’Université Rockefeller, l’un des principaux chercheurs.

“Cette collection génomique complexe représente une diversité génétique humaine beaucoup furthermore précise que jamais auparavant”, a-t-il déclaré. “Avec une plus grande étendue et une moreover grande profondeur des données génétiques à leur disposition et une meilleure qualité des assemblages de génomes, les chercheurs peuvent affiner leur compréhension du lien entre les gènes et les characteristics de la maladie et accélérer la recherche clinique.”

Diversité d’approvisionnement

Achevée en 2003, la première ébauche du génome humain était relativement imprécise, mais elle est devenue additionally précise au fil des ans grâce aux lacunes comblées, aux erreurs corrigées et à l’avancement de la technologie de séquençage. Une autre étape a été franchie l’année dernière, lorsque les huit derniers pour cent du génome – principalement de l’ADN étroitement enroulé qui ne code pas pour les protéines et les régions d’ADN répétitives – ont finalement été séquencés.

Malgré ces progrès, le génome de référence est resté imparfait, notamment en ce qui concerne les, 2 à 1 % critiques d’ADN représentant la diversité. Le Human Pangenome Reference Consortium (HPRC), une collaboration financée par le gouvernement entre additionally d’une douzaine d’institutions de recherche aux États-Unis et en Europe, a été lancé en 2019 pour résoudre ce problème.

À l’époque, Jarvis, l’un des cooks de file du consortium, perfectionnait le séquençage avancé et les méthodes de calcul par le biais du projet Vertebrate Genomes, qui vise à séquencer les 70 000 espèces de vertébrés. Son laboratoire et d’autres collaborateurs ont décidé d’appliquer ces avancées pour des assemblages de génomes diploïdes de haute qualité afin de révéler la variation au sein d’un seul vertébré : Homo sapiens.

Pour collecter une diversité d’échantillons, les chercheurs se sont tournés vers le projet 1000 Genomes, une foundation de données publique de génomes humains séquencés qui comprend as well as de 2500 individus représentant 26 populations géographiquement et ethniquement variées. La plupart des échantillons proviennent d’Afrique, qui abrite la plus grande diversité humaine de la planète.

“Dans de nombreux autres grands projets de diversité du génome humain, les scientifiques ont sélectionné principalement des échantillons européens”, explique Jarvis. “Nous avons fait un energy délibéré pour faire le contraire. Nous essayions de contrecarrer les préjugés du passé.”

Il est possible que des variantes génétiques susceptibles d’éclairer nos connaissances sur les maladies courantes et rares se trouvent parmi ces populations.

Maman, papa et enfant

Mais pour élargir le pool génétique, les chercheurs ont dû créer des séquences in addition nettes et additionally claires de chaque individu – et les approches développées par les membres du Vertebrate Genome Task et les consortiums associés ont été utilisées pour résoudre un problème system de longue day dans le domaine.

Chaque personne hérite d’un génome de chaque parent, c’est ainsi que nous nous retrouvons avec deux copies de chaque chromosome, ce qui nous donne ce qu’on appelle un génome diploïde. Et lorsque le génome d’une personne est séquencé, il peut être difficile de démêler l’ADN parental. Les tactics et algorithmes moreover anciens ont régulièrement commis des erreurs lors de la fusion des données génétiques parentales d’un individu, ce qui a entraîné une vue floue. “Les différences entre les chromosomes de maman et de papa sont as well as grandes que la plupart des gens ne le pensent”, dit Jarvis. “Maman peut avoir 20 copies d’un gène et papa seulement deux.”

Avec autant de génomes représentés dans un pangénome, cette nébulosité menaçait de se transformer en un orage de confusion. Ainsi, le HPRC s’est appuyé sur une méthode développée par Adam Phillippy et Sergey Koren aux Nationwide Institutes of Well being sur les “trio” guardian-enfant – une mère, un père et un enfant dont les génomes avaient tous été séquencés. En utilisant les données de maman et papa, ils ont pu clarifier les lignes d’héritage et arriver à une séquence de meilleure qualité pour l’enfant, qu’ils ont ensuite utilisée pour l’analyse du pangénome.

Nouvelles variantes

L’analyse par les chercheurs de 47 personnes a donné 94 séquences génomiques distinctes, deux pour chaque ensemble de chromosomes, as well as le chromosome sexuel Y chez les mâles.

Ils ont ensuite utilisé des procedures de calcul avancées pour aligner et superposer les 94 séquences. Sur les 120 tens of millions de paires de bases d’ADN qui étaient auparavant invisibles ou à un emplacement différent de celui indiqué dans la référence précédente, environ 90 hundreds of thousands dérivent de variations structurelles, qui sont des différences dans l’ADN des personnes qui surviennent lorsque des morceaux de chromosomes sont réarrangés – – déplacé, supprimé, inversé ou avec des copies supplémentaires à partir de duplications.

C’est une découverte importante, take note Jarvis, automobile les études de ces dernières années ont établi que les variantes structurelles jouent un rôle majeur dans la santé humaine, ainsi que dans la diversité spécifique à la populace. “Ils peuvent avoir des effets dramatiques sur les différences de qualities, la maladie et la fonction des gènes”, dit-il. “Avec autant de nouvelles découvertes identifiées, il y aura beaucoup de nouvelles découvertes qui n’étaient pas possibles auparavant.”

Combler les lacunes

L’assemblage du pangénome comble également les lacunes dues à des séquences répétitives ou à des gènes dupliqués. Un exemple est le complexe majeur d’histocompatibilité (MHC), un groupe de gènes qui codent des protéines à la surface area des cellules qui aident le système immunitaire à reconnaître les antigènes, tels que ceux du virus SARS-CoV-2.

“Ils sont vraiment importants, mais il était extremely hard d’étudier la diversité du CMH en utilisant les anciennes méthodes de séquençage”, explique Jarvis. “Nous constatons une diversité beaucoup additionally grande que prévu. Ces nouvelles informations nous aideront à comprendre comment les réponses immunitaires contre des agents pathogènes spécifiques varient d’une personne à l’autre.” Cela pourrait également conduire à de meilleures méthodes pour faire correspondre les donneurs de greffe d’organes avec les individuals, ou identifier les personnes à risque de développer une maladie vehicle-immune.

L’équipe a également découvert de nouvelles caractéristiques surprenantes des centromères, qui se trouvent au cœur des chromosomes et conduisent la division cellulaire, se séparant lorsque les cellules se dupliquent. Des mutations dans les centromères peuvent entraîner des cancers et d’autres maladies.

Malgré des séquences d’ADN hautement répétitives, “les centromères sont si divers d’un haplotype à l’autre qu’ils peuvent représenter additionally de 50 % des différences génétiques entre les personnes ou les haplotypes maternels et paternels, même au sein d’un même individu”, explique Jarvis. “Les centromères semblent être l’une des events du chromosome qui évoluent le furthermore rapidement.”

Établissement de relations

Cependant, le pangénome actuel de 47 personnes n’est qu’un stage de départ. L’objectif ultime du HPRC est de produire des génomes de haute qualité et presque sans erreur d’au moins 350 individus de diverses populations d’ici la mi-2024, une étape qui permettrait de capturer des allèles rares qui confèrent des features adaptatifs importants. Les Tibétains, par exemple, ont des allèles liés à l’utilisation de l’oxygène et à l’exposition aux rayons UV qui leur permettent de vivre à haute altitude.

Un défi majeur dans la collecte de ces données sera de gagner la confiance des communautés qui ont vu par le passé des abus de données biologiques  par exemple, il n’y a pas d’échantillons dans l’étude actuelle provenant de peuples amérindiens ou autochtones, qui ont longtemps été ignorés ou exploités par les études scientifiques. Mais il n’est pas nécessaire de remonter très loin dans le temps pour trouver des exemples d’utilisation contraire à l’éthique des données génétiques  : il y a quelques années à peine, des échantillons d’ADN de milliers d’Africains dans plusieurs pays ont été commercialisés à l’insu, sans le consentement ou sans avantage des donneurs.

Ces délits ont semé la méfiance à l’égard des scientifiques dans de nombreuses populations. Mais en n’étant pas inclus, certains de ces groupes pourraient rester génétiquement obscurs, conduisant à une perpétuation des biais dans les données – et à des disparités carries on dans les résultats de santé.

“C’est une scenario complexe qui va nécessiter beaucoup d’établissement de relations”, déclare Jarvis. “Il y a une moreover grande sensibilité maintenant.”

Et encore aujourd’hui, de nombreux groupes sont prêts à participer. “Il y a des individus, des establishments et des organismes gouvernementaux de différents pays qui disent:” Nous voulons en faire partie. Nous voulons que notre population soit représentée “”, a déclaré Jarvis. « Nous progressons déjà.