module 1.4

Probabilités et statistiques pour la biologie (3 crédits) [van Helden J., Rihet P.]

Code: SBBAU16L

Objectif(s): Acquérir les notions de base en probabilités et statistiques nécessaires à l’analyse de données biologiques.

Volume horaire: 15 de CM - 7 de TD - 8 de TP

Description

Le module s'adresse aux étudiants du M1 BBSG, et sera proposé en ouverture à d'autres mentions, notamment M2 Pro Immunotechnologie. L’ensemble du cours (théorie, TD et TP) sera motivé par l’analyse de données concrètes extraites des différents domaines d’application des deux mentions de master concernées (génomique, protéomique, immunologie).

Les CM viseront à présenter les bases du raisonnement statistique, en faisant le lien entre données biologiques et modèles statistiques. Ils incluront un rappel des concepts de probabilité, des lois de distributions, et la présentation de quelques tests fréquemment utilisés.

Les travaux dirigés pousseront les étudiants à développer eux-mêmes le raisonnement statistique, en identifiant les traitements appropriés en fonction des types de données biologiques et des questions posées : choix des méthodes, évaluation des conditions d’applicabilité, choix des paramètres. Les travaux pratiques consisteront à mettre en œuvre les méthodes enseignées pour analyser des données au moyen de logiciels classiques de bureautique (tableurs), et à apprendre à interpréter les résultats des tests. L’organisation reposera sur une alternance de séances de CM, TD et TP, afin d’assurer une intégration progressive des concepts et de la pratique.

Prérequis

Ce cours s’adresse à des étudiants issus d’une formation en sciences de la vie, et inscrits aux Masters BBSG et DI. Les étudiants concernés auront pour la plupart déjà suivi un ou plusieurs cours de probabilités et statistiques durant leur parcours de licence. Cependant le cours peut également être suivi sans formation préalable, moyennant un effort de mise à niveau encadré par les enseignants.


Contenu : applications et méthodes

Les exemples suivants sont uniquement illustratifs. Les méthodes et applications seront adaptées pour prendre en compte l’évolution des domaines d’application.

-        Analyse combinatoire (permutations, combinaisons, arrangements)

         o   Tirages d’échantillons dans une population finie.

         o   Probabilités d’occurrences de motifs de régulation dans les séquences nucléiques

-        Tests d’égalité de moyenne (tests de Student, de Welch, de rangs)

         o   Bref rappel des notions indispensables:

               §  Estimation des paramètres de la population sur base d’un échantillon.

               §  Types de risques. Interprétation de la p-valeur.

         o   Applications

               §  Détection de gènes différentiellement exprimés (y compris les corrections de tests multiples)

               §  Mesures de la réponse immunitaire (taux d’anticorps, de cytokines, nombre de cellules, …)

-        Tests d’association

         o   Théorie

               §  loi hypergéométrique, tests de Fisher, chi2 et apparentés

         o   Applications

               §  Enrichissement fonctionnel de groupes de gènes co-exprimés

               §  Association génotype / phénotype (notamment dans les études d’association à échelle génomique)

               §  Association entre niveaux (classes) d’exposition à une maladie infectieuse et niveaux (classes) d’infection

-        Tests de corrélation (coefficients de corrélation de Pearson, Spearman)

         o   corrélations entre taux d’anticorps

         o   corrélations entre profils transcriptomiques (par gènes, par échantillons)