PIB2: Assignation taxonomique pour les études de metabarcoding

- Unité d’accueil : IMBE (Institut Méditerranéen de Biodiversité et d'Ecologie)

- Nom de l’encadrant : Emese Meglécz

- Courriel de l’encadrant : Cette adresse email est protégée contre les robots des spammeurs, vous devez activer Javascript pour la voir.

- Bref descriptif :
Le metabarcoding est une technique basée sur le séquençage haut débit pour identifier les espèces présentes dans des échantillons biologiques. L’assignation taxonomique des séquences est une problématique centrale dans les études de metabarcoding. Le but de ce stage sera d’améliorer un outil existant qui assigne des séquences à un taxon selon la méthode de Last Common Ancestor. Les scripts en Perl existent pour accomplir cette tâche mais plusieurs améliorations sont possibles.
Les objectifs de ce stage sont modulables.
    1. L’utilisation d’une base de données la plus large possible est cruciale dans l’assignation taxonomique. Il est important d’enrichir la base de données NCBI-nt par des séquences disponibles dans autres bases de données, comme BOLD (Barcoding of Life Database).
 L’élément central de ce stage sera de créer un script qui
        a. Télécharge des séquences de BOLD
        b. Sélectionne des séquences pas encore présentes dans NCBI-nt
        c. Trouve l’identifiant taxonomique d’NCBI-tax pour chaque séquence, ou si le taxon n’est pas encore référencé dans NCBI-tax l’identifiant du plus petit taxon parental.
        d. Crée un fichier fasta contenant ces séquences et les identifiants taxonomiques. Ce fichier va servir comme base de données pour l’assignation taxonomique.
    2. Les scripts actuels utilisent à la fois une BDD dérivée de BOLD et NCBI-nt. Une possible amélioration supplémentaire sera de faire une script qui crée une BDD spécifique au marqueur à partir des séquences de NCBI-nt. Ceci peut augmenter la vitesse des analyses.
    3. Les scripts d’assignation actuels sont basées sur BLAST. Une possible d’amélioration sera de remplacer BLAST par Vsearch qui permettra de travailler avec les alignements globaux. Les étudiants vont faire des comparaisons de la vitesse de BLAST et Vsearch. Si Vsearch est plus rapide, les scripts originaux devraient être adaptés/réécrits.

- Compétences techniques attendues (langage de programmation, outils imposés, etc.) :
* Python
* Optionnel : API Perl