Sur Terre actuellement, il y a approximativement 10 000 milliards de gigaoctets de données numériques, et chaque jour, les humains produisent des e-mails, des images, des tweets et d’autres fichiers numériques qui totalisent 2,5 tens of millions de gigaoctets de données supplémentaires. Une grande partie de ces données sont stockées dans d’énormes installations appelées centres de données exaoctets (un exaoctet équivaut à 1 milliard de gigaoctets), qui peuvent avoir la taille de plusieurs terrains de football et coûter environ 1 milliard de dollars à construire et à entretenir.



De nombreux scientifiques pensent qu’une option alternative réside dans la molécule qui contient notre info génétique : l’ADN, qui a évolué pour stocker des quantités massives d’informations à très haute densité. Une tasse de café pleine d’ADN pourrait théoriquement stocker toutes les données du monde, explique Mark Bathe, professeur de génie biologique au MIT.

« Nous avons besoin de nouvelles alternatives pour stocker ces énormes quantités de données que le monde accumule, en particulier les données d’archives », déclare Bathe, qui est également membre associé du Broad Institute du MIT et de Harvard. « L’ADN est mille fois as well as dense que même la mémoire flash, et une autre propriété intéressante est qu’une fois que vous avez fabriqué le polymère d’ADN, il ne consomme aucune énergie. Vous pouvez écrire l’ADN puis le stocker pour toujours. »



Les scientifiques ont déjà démontré qu’ils peuvent coder des images et des web pages de texte sous forme d’ADN. Cependant, un moyen facile de sélectionner le fichier souhaité à partir d’un mélange de nombreux morceaux d’ADN sera également nécessaire. Bathe et ses collègues ont maintenant démontré une façon de le faire, en encapsulant chaque fichier de données dans une particule de silice de 6 micromètres, qui est étiquetée avec de courtes séquences d’ADN qui révèlent le contenu. Compte tenu du nombre d’étiquettes possibles qui pourraient être utilisées, cette approche pourrait s’étendre jusqu’à 1020 fichiers.

Toutes vos pics numériques pourraient-elles être stockées sous forme d'ADN  ? Une system d'étiquetage et de récupération des fichiers de données ADN à partir d'un grand pool pourrait aider à rendre achievable le stockage des données ADN

Bathe est l’auteur principal de l’étude, qui paraît aujourd’hui dans Mother nature Materials. Les auteurs principaux de l’article sont le postdoctorant senior du MIT James Banal, l’ancien associé de recherche du MIT Tyson Shepherd et l’étudiant diplômé du MIT Joseph Berleant.

Stockage steady

Les systèmes de stockage numérique encodent le texte, les pics ou tout autre kind d’informations sous la forme d’une série de et de 1. Cette même information peut être codée dans l’ADN en utilisant les quatre nucléotides qui composent le code génétique : A, T, G et C. Par exemple, G et C pourraient être utilisés pour représenter tandis que A et T représentent 1.

L’ADN a plusieurs autres caractéristiques qui le rendent souhaitable comme help de stockage : il est extrêmement steady et il est assez facile (mais coûteux) à synthétiser et à séquencer. De in addition, en raison de sa densité élevée – chaque nucléotide, équivalent à jusqu’à deux bits, mesure environ 1 nanomètre cube – un exaoctet de données stockées sous forme d’ADN pourrait tenir dans la paume de votre principal.

Un obstacle à ce form de stockage de données est le coût de la synthèse d’aussi grandes quantités d’ADN. Actuellement, il en coûterait 1 000 milliards de pounds pour écrire un pétaoctet de données (1 million de gigaoctets). Pour devenir compétitif avec la bande magnétique, qui est souvent utilisée pour stocker des données d’archives, Bathe estime que le coût de la synthèse d’ADN devrait baisser d’environ six ordres de grandeur. Bathe dit qu’il prévoit que cela se produira dans une décennie ou deux, de la même manière que le coût de stockage des informations sur les lecteurs flash a considérablement diminué au cours des deux dernières décennies.

Mis à aspect le coût, l’autre goulot d’étranglement majeur dans l’utilisation de l’ADN pour stocker des données est la difficulté de choisir le fichier que vous voulez parmi tous les autres.

 » En supposant que les technologies d’écriture de l’ADN arrivent à un stage où il est rentable d’écrire un exaoctet ou un zettaoctet de données dans l’ADN, alors quoi  ? Vous allez avoir une pile d’ADN, qui représente un milliard de fichiers, d’images ou movies et autres choses. explique Bathe. « C’est comme essayer de trouver une aiguille dans une botte de foin. »

Actuellement, les fichiers ADN sont classiquement récupérés par PCR (amplification en chaîne par polymérase). Chaque fichier de données ADN comprend une séquence qui se lie à une amorce PCR particulière. Pour extraire un fichier spécifique, cette amorce est ajoutée à l’échantillon pour trouver et amplifier la séquence souhaitée. Cependant, un inconvénient de cette approche est qu’il peut y avoir une interférence entre l’amorce et les séquences d’ADN hors cible, entraînant l’extraction de fichiers indésirables. De in addition, le processus de récupération par PCR nécessite des enzymes et finit par consommer la majeure partie de l’ADN qui se trouvait dans le pool.

« Vous brûlez en quelque sorte la botte de foin pour trouver l’aiguille, vehicle tout l’autre ADN n’est pas amplifié et vous le jetez essentiellement », explique Bathe.

Récupération de fichiers

Comme approche option, l’équipe du MIT a développé une nouvelle approach de récupération qui consiste à encapsuler chaque fichier d’ADN dans une petite particule de silice. Chaque capsule est étiquetée avec des « codes-barres » ADN basic brin qui correspondent au contenu du fichier. Pour démontrer cette approche de manière rentable, les chercheurs ont codé 20 images différentes en morceaux d’ADN d’environ 3 000 nucléotides de extended, ce qui équivaut à environ 100 octets. (Ils ont également montré que les capsules pouvaient contenir des fichiers ADN allant jusqu’à un gigaoctet.)

Chaque fichier était étiqueté avec des codes-barres correspondant à des étiquettes telles que  » chat  » ou  » avion « . ils retirent un échantillon de l’ADN et ajoutent des amorces qui correspondent aux étiquettes qu’ils recherchent – par exemple, « chat ». ou « chat », « orange » et « domestique » pour un chat domestique.

Les amorces sont étiquetées avec des particules fluorescentes ou magnétiques, ce qui facilite l’extraction et l’identification de toutes les correspondances de l’échantillon. Cela permet de supprimer le fichier souhaité tout en laissant le reste de l’ADN intact pour être remis en stockage. Leur processus de récupération permet aux déclarations logiques booléennes telles que  » président ET XVIIIe siècle  » de générer George Washington en conséquence, similaire à ce qui est récupéré avec une recherche d’images Google.

« Dans l’état actuel de notre preuve de notion, nous sommes au taux de recherche de 1 kilo-octet par seconde. Le taux de recherche de notre système de fichiers est déterminé par la taille des données par capsule, qui est actuellement limitée par le coût prohibitif d’écrire même 100 mégaoctets de données sur l’ADN et le nombre de trieurs que nous pouvons utiliser en parallèle. Si la synthèse d’ADN devenait suffisamment bon marché, nous serions en mesure de maximiser la taille des données que nous pouvons stocker par fichier avec notre approche « , déclare Banal.

Pour leurs codes-barres, les chercheurs ont utilisé des séquences d’ADN uncomplicated brin d’une bibliothèque de 100 000 séquences, chacune d’environ 25 nucléotides, développée par Stephen Elledge, professeur de génétique et de médecine à la Harvard Health care School. Si vous mettez deux de ces étiquettes sur chaque fichier, vous pouvez étiqueter de manière special 1010 (10 milliards) fichiers différents, et avec quatre étiquettes sur chacun, vous pouvez étiqueter de manière exclusive 1020 fichiers.

Bathe envisage que ce form d’encapsulation d’ADN pourrait être utile pour stocker des données  » froides « , c’est-à-dire des données conservées dans des archives et peu consultées. Son laboratoire est en teach de lancer une startup, Cache DNA, qui développe actuellement une technologie pour le stockage à extended terme de l’ADN, à la fois pour le stockage des données ADN à prolonged terme et des échantillons d’ADN cliniques et autres préexistants à courtroom terme.

« Bien qu’il puisse s’écouler un sure temps avant que l’ADN ne soit viable en tant que help de stockage de données, il existe déjà aujourd’hui un besoin pressant de methods de stockage massives et peu coûteuses pour les échantillons d’ADN et d’ARN préexistants provenant des checks Covid-19, du séquençage génomique humain et domaines de la génomique « , dit Bathe.

La recherche a été financée par l’Office of Naval Exploration, la Nationwide Science Basis et le U.S. Military Investigate Workplace.