PIB8: A la recherche des duplications perdues

- Unité d’accueil : CIML

- Nom de l’encadrant : Jonathan EWBANK

- Courriel de l’encadrant : Cette adresse email est protégée contre les robots des spammeurs, vous devez activer Javascript pour la voir.

- Bref descriptif :
Nous avons mis en évidence au sein du génome de Caenorhabditis elegans des régions de conservation des séquences ADN dans des contextes génomiques distincts :
1/ Une région de 5 kb présente sur 2 chromosomes chevauche des exons sans que les protéines correspondantes soient conservées (traduction dans deux cadres de lecture différents).
2/ Dans un autre cas, une région se trouve (i) dans une partie inter-génique,  (ii) chevauchant un pseudo-gène et (iii) dans un "gène désert”.

Le projet vise à développer un outil permettant la recherche systématique (et la classification) de ces séquences qui pourraient être des duplications anciennes.

Deux séquences ont été découvertes. La première séquence a été trouvée par hasard. Celle-ci possède un taux de AT élevé.
La seconde a été découverte en passant en revue les séquence PACT de C. elegans (PATC est une classe d'ADN permettant l'inhibition de la suppression de séquences répétées (https://www.ncbi.nlm.nih.gov/pubmed/27374334)). Mais parmi la liste de séquences PATC, une seule se trouve dans une région répétée.

*) Questions principales :
Recherche en priorité dans le génome de C. elegans : Fréquence d'apparition de ces duplications hors normes de grande taille (> ~3Kb) ? Quelles sont leurs caractéristiques ? Correspondent-elles à des parties structurantes du génome ?
Ces séquences sont conservées chez C. elegans mais pas chez d'autres Caenorhabditis.
Il existe peut-être des séquences équivalentes dans les autres espèces (et elles n'ont peut-être rien à voir avec les séquences PATC). Une étape ultérieure serait de pouvoir étendre l'algorithme de recherche à d'autres espèces.

*) Méthodologie, pistes de développement :
Différentes stratégies de recherche de sous-séquences identiques possibles (et qui ne correspondent pas à des paralogues).
Quelques cas vont poser un problème: réfléchir ultérieurement si algo de filtrages sophistiqués nécessaires (élimination des séquences paralogues, élimination des gènes inclus les uns dans les autres, …)

- Compétences techniques attendues (langage de programmation, outils imposés, etc.) :
* Pipeline d'analyse de données génomiques