2021-2022 / SDOC0030-1

Statistique multivariée

Durée

20h Th

Nombre de crédits

 Formation doctorale en sciences (BBMC)3 crédits 

Enseignant

Gentiane Haesbroeck

Langue(s) de l'unité d'enseignement

Langue française

Organisation et évaluation

Enseignement au deuxième quadrimestre

Horaire

Horaire en ligne

Unités d'enseignement prérequises et corequises

Les unités prérequises ou corequises sont présentées au sein de chaque programme

Contenus de l'unité d'enseignement

Les quatre thèmes suivants de statistique multivariée sont considérés :
Thème 1: vecteurs moyens, matrices de variances-covariances, distribution multinormale et tests d'inférence classique (tests d'égalité des vecteurs moyens, tests d'homoscédasticité, tests de normalité)
Thème 2: Réduction de la dimension (Analyse en Composantes Principales et tSNE)
Thème 3: Classification automatique (classification non supervisée)
Thème 4: Régression multiple et quelques généralisations
Les techniques sont expliquées sans entrer dans le détail des justifications mathématiques.

Acquis d'apprentissage (objectifs d'apprentissage) de l'unité d'enseignement

A l'issue de ce cours, les doctorants devront être capables de
- déterminer si une des méthodes vues au cours est appropriée pour analyser un ensemble de données de grande dimension dans leur domaine.
- appliquer la méthode en question.
- interpréter les résultats des analyses effectuées.
Les doctorants seront aussi capables de détecter les situations dans lesquelles les techniques de base ne sont pas applicables (violation des hypothèses de normalité, d'indépendance,...).

Savoirs et compétences prérequis

Les étudiants doivent avoir déjà suivi un cours de base de statistique descriptive et inférentielle. Les notions suivantes seront exploitées sans être ré-expliquées: paramètres statistiques classiques univariés (moyenne, quantiles, variance, écart-type, dissymétrie,...), distribution normale univariée, tests d'hypothèse dans le contexte univarié.
Par ailleurs, même si le professeur n'insiste pas sur les justifications mathématiques, certaines notions de base d'algèbre linéaire sont indispensables afin de comprendre les outils principaux de la statistique multivariée (notamment les notions de vecteurs, produits scalaires, matrices, projection orthogonale, matrices inverses et déterminant).
En ce qui concerne le logiciel R, les notions de base sont brièvement décrites dans les documents pédagogiques mis en ligne.

Activités d'apprentissage prévues et méthodes d'enseignement

12h de cours ex-cathedra (en présentiel ou par vidéo) et de l'ordre de 8h d'auto-apprentissage du logiciel R.

 
 

Mode d'enseignement (présentiel, à distance, hybride)

Combinaison d'activités d'apprentissage en présentiel et en distanciel


Explications complémentaires:

Cette année, le cours se donnera en présentiel à l'Institut de Mathématique (B37 - Sart-Tilman) du lundi 24 janvier au jeudi 27 janvier de  9h à 10h30 et de 11h à 12h30. En cas d'impossibilité d'organiser le cours en présentiel, les cours seront remplacés par des vidéos exposant la matière et des séances de questions-réponses organisées dans le cadre d'une classe virtuelle.
En complément à l'enseignement en présentiel/vidéos-classes virtuelles, des documents, mis en ligne sur la plateforme eCampus,  seront disponibles afin de permettre aux participants d'appliquer les techniques vues au cours à l'aide du logiciel R (formation en auto-apprentissage). Les scripts seront fournis ainsi que des explications détaillées sur les inputs/outputs des fonctions exploitées.
Le cours est enseigné en anglais.
 

Lectures recommandées ou obligatoires et notes de cours

Il n'y a pas de notes de cours mais des transparents seront disponibles et diffusés sur eCampus en janvier.
Les participants pourront aussi consulter les livres suivants (disponible en ligne à partir de l'intranet ULiège): 
Applied Multivariate Statistical Analysis, RA Johnson et DA Wichern, 6ème édition 2014
Applied Multivariate Statistics with R, D. Zelterman, Springer.
 

Modalités d'évaluation et critères

Examen(s) en session

Toutes sessions confondues

- En distanciel

évaluation écrite

Autre : Attestation de participation


Explications complémentaires:

Les doctorants qui suivront ce cours de troisième cycle l'auront, pour la plupart, inscrit comme activité dans leur formation doctorale. Aucune évaluation n'est prévue (malgré les informations reprises par défaut ci-dessus) mais une attestation de participation au cours sera transmise par l'ARD aux étudiants qui auront participé.

Stage(s)

Remarques organisationnelles

Le cours est repris dans le folder de présentation des activités de formation doctorale transversales réalisé par l'ARD.
Les doctorants qui souhaitent participer au cours doivent donc s'inscrire via l'ARD.
Les étudiants officiellement inscrits via l'ARD seront inscrits au cours SDOC0030 sur la plateforme eCampus afin de pouvoir accéder aux documents utiles (transparents, scripts R...), et éventuellement participer à des classes virtuelles au cas où le présentiel serait problématique.
Le cours est plutôt destiné aux doctorants se trouvant dans leurs deux premières années de formation doctorale. Il s'agit d'un cours "généraliste", qui se contente d'exposer des méthodes de base sans pouvoir considérer des techniques plus spécifiquement utilisées dans certains domaines d'application (médecine, agronomie...).
Afin de ne pas être déçu par le contenu, il est important de noter qu'il est impossible, vu le nombre de participants, de combiner cet enseignement avec un "service de consultance" consistant à analyser les cas concrets de problèmes statistiques rencontrés par les doctorants présents au cours. 
NB: les présences seront prises lors de chaque demi-journée de cours afin de mesurer le suivi de la fréquentation au cours et afin de pouvoir  rédiger les attestations de suivi éventuelles.

Contacts

G.HAESBROECK, Institut de mathématique, Bât B37, local 0/60, tél: 04/366-95-94, email: G.Haesbroeck@uliege.be