• ECTS

    5 crédits

  • Composante

    Faculté des Sciences

  • Volume horaire

    21h

Description

La taille des données statistique ne cesse de croître, et notamment la richesse de la description des unités statistiques. Or, la modélisation statistique linéaire classique devient invalide en grande dimension, c'est-à-dire lorsque le nombre des variables dépasse celui des unités statistiques. Ce cours présente les techniques les plus courantes utilisées pour régulariser les modèles linéaires en grande dimension.

Lire plus

Objectifs

Former à la modélisation linéaire uni- et multi-variée en grande dimension, c'est-à-dire à diverses techniques de régularisation de la modélisation linéaire classique.

Lire plus

Pré-requis nécessaires

Cours d'analyse des données multidimensionnelle (ACP & CA). Cours de géométrie euclidienne, d'espaces vectoriels normés et de réduction des endomorphismes.

 

 

Pré-requis recommandés : Cours de statistique descriptive univariée et bivariée. Bonne maîtrise du calcul matriciel.

Lire plus

Syllabus

Introduction

Données de grande dimension. Réduction dimensionnelle et régularisation.

I - Modélisation linéaire régularisée d'une variable continue.

  1. Le modèle linéaire classique.

    a) Rappels express.

    b) Les pannes dues aux colinéarités.

  2. Régression sur composantes principales.

    a) La méthode.

    b) Qualités et défauts.

  3. Régression PLS.

    a) Critère et programme de rang 1.

    b) Critère et programme de rangs ultérieurs.

    c) Pourquoi PLS régularise.

    d) Choix du nombre de composantes pour la prédiction.

    e) Métrique du continuum entre OLS et PLS.

  4. Régressions linéaires pénalisées.

    a) Régression ridge.

    b) LASSO.

    c) Elastic net.

II - Modélisation linéaire régularisée d'un groupe de variables continues.

  1. Le modèle linéaire gaussien multivarié

    a) Le modèle classique.

    b) Le modèle pénalisé.

    c) Le modèle de MANOVA.

  2. Régression PLS multivariée.

    a) Critère et programme de rang 1 avec métriques quelconques.

    b) Cas particuliers: analyse canonique, ACP sur Variables Instrumentales, Régression PLS2.

    c) Critère et programme de rangs ultérieurs.

    d) Prédiction: choix du nombre optimal de composantes.

    e) Métriques du continuum entre Analyse Canonique, ACPVI et PLS.

III - Modélisation linéaire d'une variable nominale: analyses discriminantes linéaires.

  1. Analyse factorielle discriminante

    a) Critère et programme.

    b) Composantes et pouvoirs discriminants.

  2. Analyse discriminante PLS.

    a) Critère et programme.

    b) Composantes et pouvoirs discriminants.

    c) Analyse discriminante barycentrique.

  3. Aspects décisionnels.

    a) Décision (classement), pertes, règles de décision (affectation), risques.

    b) Choix du bon nombre de composantes pour la décision.

Lire plus

Informations complémentaires

Volumes horaires :

            CM : 21

            TD :

            TP : 

            Terrain :

Lire plus