2019-2020 / STAT0750-1

Analyse statistique multivariée (logiciel R)

Durée

10h Th, 10h Pr

Nombre de crédits

 Bachelier en sciences biologiques2 crédits 
 Master en bioinformatique et modélisation, à finalité2 crédits 
 Master en biologie des organismes et écologie, à finalité2 crédits 

Enseignant

Gentiane Haesbroeck

Langue(s) de l'unité d'enseignement

Langue française

Organisation et évaluation

Enseignement au deuxième quadrimestre

Horaire

Horaire en ligne

Unités d'enseignement prérequises et corequises

Les unités prérequises ou corequises sont présentées au sein de chaque programme

Contenus de l'unité d'enseignement

Le cours consiste en une introduction générale aux méthodes d'analyse les plus souvent utilisées en statistique multivariée (c'est-à-dire lors de l'étude simultanée de plusieurs variables) dans le domaine de la biologie. Le cours comporte les parties suivantes:
- Représentation graphique et résumés des données multivariées
- Techniques exploratoires multivariée: analyse en composantes principales, classification automatique, analyse en coordonnées principales
- Régression multiple et modèle linéaire généralisé

Acquis d'apprentissage (objectifs d'apprentissage) de l'unité d'enseignement

Les méthodes enseignées le sont de façon très pragmatique afin que l'étudiant soit, à la fin du cours, à même de
- poser un problème multivarié,
- réaliser une analyse multivariée classique à l'aide du logiciel R,
- exposer clairement les résultats.
L'étudiant devra aussi être capable de tenir compte des limites d'application des techniques enseignées.

Savoirs et compétences prérequis

Les étudiants doivent avoir suivi un cours de statistique descriptive et inférentielle dans le contexte univarié. Les concepts de distribution normale, d'intervalles de confiance et de tests statistiques seront considérés comme acquis. Par ailleurs, une certaine maitrise du logiciel R est considérée acquise.
La présentation des méthodes est réalisée sans insister sur les justifications mathématiques. Néanmoins, il est impératif que les étudiants maitrisent les concepts suivants: notions de base en algèbre linéaire (vecteurs, matrices, y compris les notions de déterminant et d'inverse), fonctions linéaires, exponentielles et logarithmiques.

Activités d'apprentissage prévues et méthodes d'enseignement

En complément des séances ex-cathedra d'exposition théorique des techniques, les étudiants seront amenés à appliquer celles-ci suivant le shéma d'apprentissage suivant:
- Travail de préparation à domicile en vue de prendre connaissance du "script" préparé par l'équipe encadrante;
- Séance de questions-réponses sur le script et sur l'interprétation des résultats;
- Travail en groupes sur des analyses de données

Mode d'enseignement (présentiel ; enseignement à distance)

Le cours compte 20 heures en présentiel, 10 heures étant consacrées à l'exposition ex-cathedra de la théorie. Lors des 10 heures de travaux pratiques, les étudiants seront d'abord invités à poser leurs questions sur les préparations imposées aux deux encadrants présents. Ensuite, ils seront amenés à débuter le travail d'analyse de données en groupes. Des correctifs seront exposés brièvement à la fin de la séance de discussion avant d'être mis en ligne sur eCampus.  

Lectures recommandées ou obligatoires et notes de cours

Il n'y a pas de note de cours mais les transparents utilisés lors des séances ex-cathedra seront disponibles à l'avance sur eCampus. Les scripts du logiciel R et les énoncés des analyses de données à réaliser (et les correctifs) seront également mis en ligne sur eCampus.
Le livre de référence suivant (dont l'accès en ligne est possible à partir des bibliothèques de l'ULiège) sera suivi pour la plupart des thèmes considérés (ACP, mesures d'associations et analyse en coordonnées principales, régression multiple et modèles de régression généralisé):
A.F. Zuur, E.N. Ieno et G.M. Smith, Analysing ecological data, Springer serie (statistics for biology and health)

Modalités d'évaluation et critères

L'examen consiste en des analyses statistiques réalisées à l'aide du logiciel R. L'accent dans la correction est surtout sur l'interprétation des résultats et le bon usage des techniques mais l'exploitation du logiciel sera également évaluée.
Pendant l'examen, les étudiants pourront travailler soit sur leur ordinateur personnel soit sur un ordinateur de la salle informatique du Département de Mathématique.

Stage(s)

Remarques organisationnelles

Le cours se donne selon l'horaire affiché sur Celcat. Les étudiants seront répartis en 2 groupes pour les séances pratiques. Celles-ci se dérouleront dans une salle de cours classique pour les étudiants dont le groupe de discussion dispose d'un ordinateur portable et dans la salle informatique du Département de Mathématique pour les autres. 

Contacts

Enseignant
Gentiane Haesbroeck Département de Mathématique (B37, bureau 0/60) Tél: 04/366.95.94 Email: G. Haesbroeck@ulg.ac.be
Assistant
Sophie Klemkenberg  Email: S.Klenkenberg@uliege.be

Adaptation des engagements pédagogiques suite à la pandémie de COVID-19 pour la session de mai-juin

Méthodes d'apprentissage mises en œuvre : enseignement à distance

Suite à la décision de l'ULiège d'organiser les cours à distances, l'organisation du cours théorique et des travaux pratiques a été adaptée comme suit:
- En ce qui concerne les cours théoriques n'ayant pas pu se dérouler en présentiel (3 cours sur les 5 prévus): mise en ligne sur eCampus, au plus tard la veille de la séance prévue à l'horaire, d'une vidéo enregistrée par le professeur et mise en place d'un forum sur eCampus (un pour chaque cours, avec présence du professeur pendant le créneau horaire prévu de manière à répondre, en temps réel, aux éventuelles questions).
- En ce qui concerne les séances de travaux pratiques (4 séances sur les 5 prévues): diffusion de la feuille d'exercices juste avant le TP et mise en place d'un forum sur eCampus afin de répondre aux questions en direct pendant la plage horaire des TPs. Un correctif écrit détaillé est mis en ligne à la fin du TP et un correctif enregistré est également mise en ligne.
Remarque: à la demande de certains étudiants, les énoncés et correctifs des TPs 3 et 4 prévus après les vacances de printemps ont été mis en ligne de manière anticipée.

Matière de l'évaluation

L'évaluation porte uniquement sur l'application des techniques vues au cours à l'aide du logiciel R. Il n'y a pas de théorie. Les questions de l'examen porteront sur ls matières suivantes:
- Analyse exploratoire multivariée et analyse confirmatoire multiple - Analyse en Composantes Principales - Classification Automatique et Analyse en Coordonnées Principales - Modèles linéaires - GLM (modèles logistique et de Poisson)

Méthodes d'évaluation

L'examen est prévu le 22 juin à distance. 
Les données seront mises en ligne sur eCampus dès le 19 juin, tandis que le questionnaire d'examen sera mis en ligne sur eCampus le 22 juin à 9h. 
Un document (soit une photo de feuilles écrites à la main, soit un fichier pdf provenant d'un fichier word) reprenant les réponses aux questions posées devra ensuite être up-loadé sur eCampus pour 14h au plus tard le 22 juin. Le code R utilisé pour répondre et les graphiques générés (si ceux-ci n'ont pas pu être insérés directement dans le document transmis) devront également être soumis avec la même deadline.
Une vérification concernant un plagiat éventuel ou une mise en commun des analyses effectuées sera réalisée et toute fraude de ce type sera sanctionnée.

Contact

G. Haesbroeck (G.Haesbroeck@uliege.be)

Adaptation des engagements pédagogiques suite à la pandémie de COVID-19 pour la session août-sept

Matière de l'évaluation

La matière est la même qu'en première session.

Méthodes d'évaluation (et plateforme utilisée)

L'organisation de l'examen reste inchangée par rapport à mai/juin.

Contact(s)