Comprendre le stockage de données sur ADN en 5 minutes

Dr. Joachim Jehl

En marge du Sommet pour l’action sur l’IA organisé à Paris en février dernier, le gouvernement français a annoncé la création d’un « campus » dédié à la discipline, qui disposera notamment d’un data center géant co-financé avec les Emirats arabes unis à hauteur de plusieurs dizaines de milliards d’euros. Cette structure est pensée comme l’un des fers de lance d’un nouveau plan pour encourager l’implantation sur le territoire de nouveaux centres de données dernier cri. Ces centres seront chargés d’accueillir les ordinateurs, infrastructures réseaux et espaces de stockage nécessaires au traitement des quantités colossales de données exploitées notamment en France. En effet, les prédictions datant de 2021 estimaient déjà à 181 mille milliards de gigaoctets le volume annuel de données produites au niveau mondial en 2025. La montée en puissance et la démocratisation des IA génératives depuis fin 2022 a rendu cette prévision obsolète, tant cette technologie accélère la course à la donnée. Il devient ainsi urgent de faire face à cette massification des données et aux enjeux techniques et écologiques qu’elle pose. Et si la solution ne résidait pas dans de futures technologies, mais dans une méthode aussi vieille que la vie elle-même, puisqu’elle en est l’une des composantes fondamentales : l’ADN ?

L’ADN, une solution made in la vie

L’acide désoxyribonucléique ou ADN constitue le support universel de l’information génétique, des bactéries aux animaux. Présent dans les cellules, il code les instructions nécessaires au développement et au fonctionnement des organismes à l’aide d’un alphabet composé de quatre bases azotées : adénine (A), thymine (T), cytosine (C) et guanine (G). Sa fameuse structure en double hélice se compose ainsi d’une suite de bases azotées appairées deux à deux (A avec T et C avec G), de sorte que lire un brin de cette hélice permet d’en déduire l’autre. L’intégralité des informations nécessaires à la constitution d’un être vivant est présente dans son ADN, dès sa conception. Au vu de l’incroyable diversité et complexité du Vivant, on imagine sans mal la capacité de l’ADN à conserver d’immenses quantités de données. L’appliquer au stockage numérique semble simple en théorie (voir figure) :

Le fichier numérique (texte, image, vidéo, etc.) est d’abord traduit en une longue suite de bits (0 et 1).
Ce code binaire est ensuite transposé en l’alphabet à quatre lettres de l’ADN : chaque paire de bits (00, 10, 01 et 11) est associée à une base A, T, C ou G, générant ainsi une séquence d’ADN « numérique ».
Des machines de synthèse chimique ou enzymatique fabriquent alors les brins d’ADN correspondant à ces séquences.
Ces brins sont archivés à très haute densité dans un réceptacle adapté, par exemple dans des microtubes ou encapsulés dans des billes de silice, où ils peuvent rester intacts pendant des siècles sans énergie.
Lorsqu’on souhaite récupérer l’information, on prélève uniquement les fragments voulus grâce à des amorces ou à des billes magnétiques qui capturent les séquences ciblées.
Enfin, un séquenceur lit l’ADN extrait ; le flux de bases A, T, C, G est reconverti en bits, puis reconstitué sous forme de fichier.

*Figure : Fonctionnement du stockage sur ADN. Source : Chris Philpot pour IEE Spectrum.*

Cette méthode présente de nombreux avantages. Entre 60 et 80% des données existantes sont des données dites « froides », c’est-à-dire des informations rarement consultées mais préservées en cas de besoin, à la manière d’archives papier. Comme il n’est pas nécessaire d’y accéder fréquemment ou rapidement, un stockage léger et durable comme l’ADN apparaît particulièrement adapté. C’est une « technologie » éprouvée par des millions d’années d’évolution pour stocker de l’information, et qui semble pouvoir se conserver au moins aussi longtemps. Une équipe de recherche internationale a en effet retrouvé en 2022 dans des sédiments au Groenland de l’ADN vieux de deux millions d’années, dont le décryptage a permis d’offrir une perspective unique sur l’écosystème de l’époque (Kjær, Pedersen, De Sanctis et al., Nature, 2022). Peu de risques d’obsolescence technique ou de perte de données dans ces conditions. De plus, l’ADN sait se montrer incroyablement compact : par des mécanismes de repliement sophistiqués, 2 mètres d’ADN sont contenus dans chaque cellule humaine mesurant environ quelques dizaines de microns (millième de millimètre). Un gramme d’ADN pourrait contenir jusqu’à 450 milliards de Go. On pourrait ainsi, en théorie, stocker d’immenses quantités d’informations pendant des siècles, dans des supports minuscules ne consommant pas d’énergie en elle-même.

Des promesses aux prototypes

De nombreux acteurs réfléchissent à transformer cette solution miracle en réalité concrète. Citons les programmes gouvernementaux MIST aux États-Unis et MoleculArXiv en France, piloté par le CNRS. Le secteur privé n’est pas en reste : de nombreuses entreprises tentent d’innover pour simplifier le processus ou en étendre les capacités. La société française Biomemory a par exemple réalisé une levée de fonds de 18 millions de dollars en décembre dernier. Tous espèrent proposer une technologie viable d’ici la fin de la décennie. Car si les résultats se montrent jusqu’à présent prometteurs (la première preuve de faisabilité datant quand même de 1988 !) de nombreux défis restent encore à relever.

Synthétiser de l’ADN reste un processus lent et coûteux. Twist Bioscience, une entreprise américaine, propose par exemple un tarif de 7 centimes par paire de base (« bp », un « barreau de l’échelle » de l’ADN). A ce tarif, synthétiser un génome humain entier coûterait 210 millions de dollars. En termes de stockage, la moyenne du marché serait d’environ 1000 dollars le mégaoctet : bien trop cher pour concurrencer les méthodes de stockage traditionnelles. L’industrialisation est donc l’enjeu principal des futurs développements technologiques. En parallèle, des recherches sont menées pour optimiser les systèmes d’encodage et de décodage des séquences, c’est-à-dire pouvoir rapidement traduire la donnée en ADN et la décoder ensuite, en isolant spécifiquement la partie d’intérêt au sein des fragments stockés. Enfin, la synthèse d’ADN n’est pas une méthode infaillible. Les cellules vivantes possèdent des mécanismes efficaces de vérification et de correction de l’ADN produit, mécanismes qui restent à adapter au contexte artificiel.

Face à l’explosion des données numériques et aux limites écologiques du stockage traditionnel, l’ADN offrirait ainsi une alternative pertinente. Bien qu’expérimentale, cette technologie inspire déjà chercheurs et entreprises et continue de montrer à quel point le vivant peut inspirer des technologies radicalement nouvelles. Reste à la transformer en une solution industrielle de stockage capable de répondre aux enjeux numériques de demain.

Comprendre le stockage de données sur ADN en 5 minutes

Articles similaires