PIB3: Optimisation de paramétrages d’un projet de metabarcoding

PIB3: Optimisation de paramétrages d’un projet de metabarcoding

- Unité d’accueil : IMBE (Institut Méditerranéen de Biodiversité et d'Ecologie)

- Nom de l’encadrant : Emese Meglécz

- Courriel de l’encadrant : Cette adresse email est protégée contre les robots des spammeurs, vous devez activer Javascript pour la voir.

- Bref descriptif :
Le metabarcoding est une technique basée sur le séquençage haut débit pour identifier les espèces présentes dans des échantillons biologiques. Récemment nous avons créé une suite des scripts (Perl) pour traiter des séquences des amplicons de divers échantillons d’une expérience de metabarcoding (PMID 28776936).  Ces scripts filtrent les séquences pour éliminer des artefacts et assignent les séquences réelles à des taxa.
Le but du stage sera d’améliorer deux étapes du pipeline existant.
    1. Le filtrage des séquences sont souvent basées sur des paramètres arbitraires. Dans notre approche nous utilisons une série des témoins négatifs et positifs (de composition connue) ce qui nous permet d’identifier des occurrences (présence d’une séquence dans un échantillon) comme attendus ou non-attendu dans les témoins. Pendant le stage, un script devrait être créé pour optimiser un paramétrage pour éliminer le plus possible les occurrences non-attendues, tout en gardant toutes les occurrences attendues.
    2. Plusieurs marqueurs (paires d’amorces utilisés pour amplifier le barcode) sont utilisés pour améliorer la couverture taxonomique de l’étude. Si les marqueurs sont chevauchants il est possible de regrouper les résultats d’obtenus après le filtrage de jeu de données de chaque marqueur. L’écriture de ce script sera le deuxième objectif de ce stage.

- Compétences techniques attendues (langage de programmation, outils imposés, etc.) :
* Python, Git, unittest
* Optionnel : Perl