2021-2022 / STAT0750-1

Analyse statistique multivariée (logiciel R)

Durée

10h Th, 10h Pr

Nombre de crédits

 Bachelier en sciences biologiques3 crédits 
 Bachelier en sciences géographiques, orientation générale2 crédits 

Enseignant

Arnout Van Messem

Langue(s) de l'unité d'enseignement

Langue française

Organisation et évaluation

Enseignement au deuxième quadrimestre

Horaire

Horaire en ligne

Unités d'enseignement prérequises et corequises

Les unités prérequises ou corequises sont présentées au sein de chaque programme

Contenus de l'unité d'enseignement

Le cours consiste en une introduction générale aux méthodes d'analyse les plus souvent utilisées en statistique multivariée (c'est-à-dire lors de l'étude simultanée de plusieurs variables) dans le domaine de la biologie. Le cours comporte les parties suivantes:
- Représentation graphique et résumés des données multivariées
- Techniques exploratoires multivariée: analyse en composantes principales, classification automatique, analyse en coordonnées principales
- Régression multiple et modèle linéaire généralisé

Acquis d'apprentissage (objectifs d'apprentissage) de l'unité d'enseignement

Les méthodes enseignées le sont de façon très pragmatique afin que l'étudiant soit, à la fin du cours, à même de
- poser un problème multivarié,
- comprendre le fonctionnement des méthodes,
- réaliser une analyse multivariée classique à l'aide du logiciel R,
- exposer clairement les résultats.
L'étudiant devra aussi être capable de tenir compte des limites d'application des techniques enseignées.
 
 

Savoirs et compétences prérequis

Les étudiants doivent avoir suivi un cours de statistique descriptive et inférentielle dans le contexte univarié. Les concepts de distribution normale, d'intervalles de confiance et de tests statistiques seront considérés comme acquis. Par ailleurs, une certaine maitrise du logiciel R est considérée acquise.
La présentation des méthodes est réalisée sans insister sur les justifications mathématiques. Néanmoins, il est impératif que les étudiants maitrisent les concepts suivants: notions de base en algèbre linéaire (vecteurs, matrices, y compris les notions de déterminant et d'inverse), fonctions linéaires, exponentielles et logarithmiques.

Activités d'apprentissage prévues et méthodes d'enseignement

En complément des séances ex-cathedra d'exposition théorique des techniques, les étudiants seront amenés à appliquer celles-ci suivant le shéma d'apprentissage suivant:
- Travail de préparation à domicile en vue de prendre connaissance du "script" préparé par l'équipe encadrante;
- Séance de questions-réponses sur le script et sur l'interprétation des résultats;
- Travail en groupes sur des analyses de données
 

Mode d'enseignement (présentiel, à distance, hybride)

Le cours compte 20 heures en présentiel, 10 heures étant consacrées à l'exposition ex-cathedra de la théorie. Lors des 10 heures de travaux pratiques, les étudiants seront d'abord invités à poser leurs questions sur les préparations imposées aux deux encadrants présents. Ensuite, ils seront amenés à débuter le travail d'analyse de données en groupes. Des correctifs seront exposés brièvement à la fin de la séance de discussion avant d'être mis en ligne sur eCampus.  

Lectures recommandées ou obligatoires et notes de cours

Il n'y a pas de note de cours mais les transparents utilisés lors des séances ex-cathedra seront disponibles à l'avance sur eCampus. Les scripts du logiciel R et les énoncés des analyses de données à réaliser (et les correctifs) seront également mis en ligne sur eCampus.
Le livre de référence suivant (dont l'accès en ligne est possible à partir des bibliothèques de l'ULiège) sera suivi pour la plupart des thèmes considérés (ACP, mesures d'associations et analyse en coordonnées principales, régression multiple et modèles de régression généralisé):
A.F. Zuur, E.N. Ieno et G.M. Smith, Analysing ecological data, Springer serie (statistics for biology and health)
 

Modalités d'évaluation et critères

Examen(s) en session

Toutes sessions confondues

- En présentiel

évaluation écrite ( questions ouvertes )


Explications complémentaires:

L'examen consiste en des analyses statistiques réalisées à l'aide du logiciel R. L'accent dans la correction est surtout sur l'interprétation des résultats et le bon usage des techniques mais l'exploitation du logiciel et la comprehension des méthodes utilisées seront également évaluée.
Pendant l'examen, les étudiants pourront travailler soit sur leur ordinateur personnel soit sur un ordinateur de la salle informatique du Département de Mathématique.
 
 

Stage(s)

Remarques organisationnelles

Le cours se donne selon l'horaire affiché sur Celcat. Les étudiants seront répartis en 2 groupes pour les séances pratiques. Celles-ci se dérouleront dans une salle de cours classique pour les étudiants dont le groupe de discussion dispose d'un ordinateur portable et dans la salle informatique du Département de Mathématique pour les autres. 

Contacts

Professeur: Arnout Van Messem
Assistant: Carole Baum, Jimmy Keydener