L'indexation des données brutes de séquençage pour mieux déchiffrer le vivant

Lettre de l'INSU - Résultats scientifiques

 

Les grands projets de séquençage sont fondamentaux pour mieux comprendre le vivant dans différents domaines (santé, agronomie, écologie). Les avancées technologiques ont permis d'atteindre une taille considérable de données brutes de séquençage (lectures de séquences). Le service européen « European Nucleotide Archive » contient actuellement près de 50 Petaoctets de données brutes publiques.

Une équipe de chercheurs du CNRS Terre & Univers (MIO-OSU Pythéas), en collaboration avec plusieurs laboratoires de recherche, a utilisé des k-mers (mots de taille k) pour créer une notion de mot dans les données brutes de séquençage. Cette solution d'indexation a ainsi permis d'interroger plusieurs dizaines de téraoctets de données de séquence issues du projet Tara Oceans. Le serveur web public Ocean Read Atlas (ORA), développé pour ce propos, permet d'interroger directement plusieurs jeux de données du consortium Tara Oceans prélevés sur tous les océans du globe. 

 

En savoir plus