Les scientifiques de l’UC Santa Cruz, ainsi qu’un consortium de chercheurs, ont publié une ébauche du leading pangénome humain – une nouvelle référence utilisable pour la génomique qui blend le matériel génétique de 47 individus d’origines ancestrales différentes pour permettre une analyse moreover approfondie et additionally précise. compréhension de la diversité génomique mondiale.
En ajoutant 119 thousands and thousands de bases – les “lettres” dans les séquences d’ADN – à la référence génomique existante, le pangénome fournit une représentation de la diversité génétique humaine qui n’était pas achievable avec un seul génome de référence. Il est très précis, furthermore complet et augmente considérablement la détection de variants dans le génome humain, comme le montre une collection d’articles révolutionnaires publiés aujourd’hui dans les revues Character, Genome Research, Character Biotechnology et Character Strategies.
Le pangénome a été produit par le Consortium de référence du pangénome humain (HPRC), co-dirigé par le professeur agrégé de génie biomoléculaire de l’UCSC Benedict Paten et le professeur adjoint de génie biomoléculaire Karen Miga et est maintenant disponible pour une utilisation dans un centre d’assemblage sur le génome de l’UCSC Navigateur. Furthermore d’une douzaine de chercheurs et d’étudiants de l’UCSC contribuent à ce projet, qui se poursuivra en 2024 lorsque les chercheurs prévoient de publier un pangénome ultimate avec des informations génomiques de 350 individus.
“Nous introduisons furthermore de diversité et d’équité dans la référence en échantillonnant divers êtres humains et en les incluant dans cette structure que tout le monde peut utiliser”, a déclaré Paten, qui est l’auteur principal du principal doc de référence. “Un génome ne suffit pas pour représenter tout le monde – le pangénome sera finalement quelque chose d’inclusif et de représentatif.”
Comprendre la variation génomique
Le génome de chaque personne varie légèrement – d’environ, 4% par rapport à la personne suivante, en moyenne – et la compréhension de ces différences peut donner un aperçu de leur santé, aider à diagnostiquer la maladie, prédire les résultats médicaux et orienter les traitements. L’utilisation de la référence du pangénome améliorera la capacité des scientifiques à détecter et à comprendre les versions dans les études futures.
Généralement, lorsque les scientifiques et les cliniciens étudient le génome d’un individu pour rechercher des variations, ils comparent l’ADN de cet individu à celui d’une référence standard pour déterminer où se trouvent les différences d’une ou de plusieurs paires de bases. Jusqu’à présent, le génome de référence était principalement représenté par une séquence unique pour chaque chromosome humain, provenant principalement d’un individu. Mais, cette référence est vieille de près de 20 ans et fondamentalement limitée en ce qu’elle ne peut représenter la richesse des variants génétiques présentes dans la populace humaine. Cela introduit un problème appelé biais de référence dans l’analyse du génome.
En revanche, le nouveau pangénome est une référence qui blend les génomes de 47 individus d’origines ancestrales diverses. Le pangénome ressemble à une référence linéaire dans les zones où les séquences ont les mêmes bases, et se développe pour montrer les zones où il y a des différences. Il représente de nombreuses variations différentes de la séquence du génome humain en même temps et donne aux scientifiques un issue de comparaison furthermore précis pour la variation qui est présente dans certaines populations mais pas dans d’autres.
“Un seul génome ne peut pas représenter toutes les versions riches que nous connaissons et qui peuvent être observées et étudiées dans le monde entier”, a déclaré Miga, directeur du centre de manufacturing HPRC à l’UCSC. “L’objectif n°1 de la référence du pangénome humain est d’essayer d’élargir la représentation d’une ressource de référence pour qu’elle soit moreover inclusive et plus équitable pour l’étude de l’espèce humaine, comme un ensemble de références et pas seulement une.”
La variation génomique peut être faible, consistant en des différences d’une ou de quelques bases d’ADN, ou il peut s’agir de grandes variantes structurelles, classées comme variantes de 50 paires de bases ou as well as. Ces variantes structurelles plus grandes peuvent avoir des implications importantes pour la santé. Jusqu’à présent, les chercheurs n’ont pas été en mesure d’identifier moreover de 70 % des variantes structurelles qui existent dans les génomes humains en raison de technologies limitées et du biais d’utilisation d’une seule séquence de référence.
Sur les 119 hundreds of thousands de nouvelles bases ajoutées à la référence avec le pangénome, environ 90 millions d’entre elles dérivent d’une variation structurelle. Les variantes structurelles sont complexes et peuvent être des inversions de séquences, des insertions, des délétions ou des répétitions en tandem – un section de deux bases ou as well as répété de nombreuses fois. Ces nouvelles bases aideront les chercheurs à étudier des régions du génome pour lesquelles il n’existait auparavant aucune référence, et pourront potentiellement associer des variantes structurelles à la maladie dans de futures études.
“Maintenant, nous pouvons cartographier davantage de variantes structurelles, nous trouvons donc des caractéristiques et des zones du génome qui n’existaient tout simplement pas auparavant”, a déclaré Miga. “C’est excitant parce que cela nous permet d’examiner la régulation des gènes d’une manière unique que nous ne pouvions pas étudier auparavant, car or truck ces zones auraient probablement été cartographiées de manière inappropriée ou tout simplement ignorées.”
L’utilisation de la référence du pangénome pour l’analyse génomique augmente la détection des variantes structurelles de 104 % par rapport à la détection à l’aide de la référence standard. La référence au pangénome augmente également la précision de l’appel de petites variantes, celles qui ne font que quelques bases, d’environ 34 % en raison de la quantité accrue de données présentes dans le pangénome.
Chaque être humain porte un ensemble apparié de chromosomes – un ensemble hérité de la mère et un du père. Les génomes individuels présents dans la référence du pangénome contiennent des informations résolues par l’haplotype, ce qui signifie qu’il peut distinguer en toute confiance les deux ensembles parentaux de chromosomes – un exploit scientifique majeur. Ces informations aideront les scientifiques à mieux comprendre comment divers gènes et maladies sont hérités.
Cela signifie également que la référence actuelle comprend en fait 94 séquences génomiques distinctes, avec l’objectif d’atteindre 700 d’ici 2024.
Création du pangénome
Le pangénome a été rendu achievable grâce au développement de strategies de calcul avancées pour aligner les multiples séquences du génome en une seule référence utilisable dans une composition appelée graphe de pangénome. Paten et des chercheurs du laboratoire de génomique computationnelle de l’UCSC ont aidé à diriger les initiatives du HPRC pour développer les méthodes algorithmiques nécessaires à la création de cette framework de graphe de pangénome.
En raison des méthodes utilisées dans ce projet, tous les génomes de la référence du pangénome sont d’une qualité et d’une précision extrêmement élevées, couvrant as well as de 99 % de chaque génome humain avec une précision de moreover de 99 %.
“Dans la référence linéaire, nous n’avions qu’une seule séquence, une représentation de chaque gène”, a déclaré Mobin Asri, titulaire d’un doctorat en bioinformatique. candidat à l’UCSC et co-leading auteur de l’article principal. “Mais nous savons que nos gènes ont des versions différentes dans la inhabitants humaine. En utilisant le graphique du pangénome, nous voulons avoir toutes ces variations dans une seule composition – et un graphique est un moyen naturel de le faire.”
Le projet HPRC s’appuie fortement sur la technologie de séquençage à lecture longue et extremely longue pour lire l’ADN à partir d’échantillons biologiques. Grâce aux progrès récents, ces strategies peuvent désormais décoder des milliers à des hundreds of thousands de paires de bases du génome à la fois. Les longues étendues de lectures d’ADN sont ensuite assemblées by means of des algorithmes spécialisés en séquences génomiques as well as complètes. Idéalement, chaque séquence assemblée devrait représenter la séquence d’un chromosome.
Les lectures longues contiennent des erreurs environ un pour cent du temps et les algorithmes d’assemblage actuels ne sont pas parfaits, ce qui peut rendre les séquences assemblées erronées à certains endroits. Pour vérifier et corriger ces erreurs, les génomes individuels qui ont été séquencés et assemblés passent par plusieurs outils, y compris un pipeline de fiabilité développé par Asri. Une fois traités par ces outils, les chercheurs peuvent s’assurer que les assemblages sont précis et complets.
Après avoir traversé le pipeline d’Asri, les différents génomes sont compilés via des méthodes algorithmiques complexes dans la composition graphique du pangénome. Visuellement, le génome graphique permet aux chercheurs de visualiser les différences dans les différentes séquences de référence comme des zones divergentes dans des chemins autrement partagés.
Construire une ressource accessible
Tous les 47 premiers génomes diploïdes du projet de pangénome provenaient d’individus qui ont participé au projet 1000 Genomes (1000G), un work influent qui a créé un catalogue de versions génétiques humaines communes à partir d’échantillons librement consentis et a été achevé en 2015. L’open le statut de consentement de ces échantillons permet à tout chercheur d’accéder à la ressource sans les barrières de confidentialité qui accompagnent généralement la recherche sur le génome, dans le but de rendre le pangénome accessible au additionally grand nombre de personnes achievable.
“Devenir une ressource commune est quelque chose de fondamental pour le succès d’une référence de pangénome humain”, a déclaré Miga. “Il doit avoir la capacité d’être available et ouvert dans le monde entier à tous les chercheurs afin que nous puissions l’utiliser comme base.”
L’équipe HPRC se concentre sur la sensibilisation pour s’assurer que le pangénome est une ressource utile qui sera utilisée dans les cliniques du monde entier. Cela signifie faciliter les annotations, les commentaires et les contributions des chercheurs menant des études à l’aide de la référence du pangénome.
“Le projet de pangénome est une preuve de principe importante qui, nous l’espérons, va influencer beaucoup de gens et les faire réfléchir sur le pangénome et remark cela pourrait affecter leur travail”, a déclaré Paten. “Pour l’avenir, nous voyons beaucoup d’engagement avec d’autres groupes – il faut beaucoup de personnes différentes pour construire quelque chose qui va devenir une grande ressource communautaire.”
En plus de mettre l’accent sur l’accessibilité, le projet HPRC dispose d’une équipe d’éthique dédiée qui se concentre sur les implications sociales et juridiques de ce projet. Ils s’efforcent d’anticiper les problèmes difficiles et d’aider à guider le consentement éclairé, à hiérarchiser l’étude de différents échantillons, à explorer les problèmes réglementaires possibles liés à l’adoption clinique et à travailler avec les communautés internationales et autochtones pour intégrer leurs séquences génomiques dans ces initiatives as well as larges.
Poursuivre l’héritage et les travaux futurs
Le pangénome humain est une continuation des attempts de plusieurs décennies des scientifiques de l’UC Santa Cruz pour comprendre le code biologique qui sous-tend la vie humaine.
En 2000, Jim Kent, alors étudiant diplômé de l’UCSC et maintenant chercheur à l’Institut de génomique et directeur de l’UCSC Genome Browser, a écrit le code qui a assemblé le premier projet de travail du génome humain. Les scientifiques de l’UCSC l’ont publié en libre accès à tous ceux qui souhaitaient l’utiliser. Depuis lors, l’UCSC est à la pointe de la recherche en génomique.
En avril 2022, Karen Miga de l’UCSC a co-dirigé le consortium Telomere-to-Telomer pour assembler le leading séquençage complet d’un génome humain, remplissant les régions de référence complexes manquantes qui avaient longtemps échappé aux scientifiques.
“Depuis 2000, nous avons eu une série de représentations de moreover en moreover précises d’un génome”, a déclaré David Haussler, directeur scientifique de l’Institut de génomique de l’UCSC qui a dirigé l’équipe de l’UCSC sur le projet original du génome humain et donne des conseils sur le projet pangénome. “Mais peu importe la précision avec laquelle vous représentez un génome, cela ne représentera pas toute l’humanité. C’est maintenant un tournant : furthermore la génomique d’un génome humain typical, mais la génomique pour tout le monde.”
Les chercheurs progressent vers l’objectif d’achever le pangénome complet d’ici 2024. L’équipe est en train de recruter de nouvelles personnes pour représenter certaines populations non incluses dans le projet 1000 Genomes, en particulier les personnes d’ascendance moyen-orientale et africaine. Miga, en tant que directeur du centre de generation de données de l’UCSC, sera le fer de lance de ces attempts à l’avenir.
En moreover de terminer la référence finale du pangénome, les chercheurs travaillent à la development d’un projet international de pangénome humain qui établirait des partenariats avec des chercheurs du monde entier. Ces partenariats comprendraient un échange bilatéral de compétences et de connaissances, visant à mettre les compétences et la technologie nécessaires pour créer des génomes de référence de haute qualité entre les mains des chercheurs du monde entier afin qu’ils puissent mener leurs propres recherches.
Parmi les autres chercheurs de l’UCSC sur l’article principal figurent Marina Haukness, Glenn Hickey, Julian Lucas, Jean Monlong, Xian Chang, Jordan Eizenga, Charles Markello, Adam Novak, Hugh Olsen et Trevor Pesout.
D’autres institutions impliquées dans le Human Pangenome Reference Consortium peuvent être trouvées sur la web site principale du projet.
Le financement du CRHP a été principalement assuré par l’Institut national de recherche sur le génome humain.