Composante
Faculté des Sciences
Description
L'importance de la science statistique dans le processus de découverte scientifique et d'avancée industrielle est qu'elle permet la formulation d'inférences concernant des phénomènes d'intérêt auxquels on peut associer des risques d'erreur ou des degrés de confiance. Le calcul de ces risques d'erreur s'appuie sur la théorie des probabilités, mais les principes et des méthodes permettant d'associer ces risques aux inférences constituent un corpus théorique qui sert de base à l'ensemble des méthodologies statistiques.
Ce module se veut une présentation assez complète de ces principes de base et des outils, résultats et théorèmes mathématiques utilisés en statistique inférentielle. On y développe les notions d'estimation ponctuelle et par intervalle, de tests d'hypothèses et des concepts fondamentaux comme les familles exponentielles et le principe du maximum de vraisemblance et l'usage de la p-value.
Pour la mise en œuvre de certaines applications, on présentera les outils adaptés du logiciel R.
Objectifs
Au terme de ce module, l'étudiante ou l’étudiant devra savoir développer les méthodologies statistiques optimales pour l'estimation et les tests d'hypothèses dans certaines familles de lois de probabilités paramétriques. Elle ou il devra comprendre les limites des inférences produites et être en mesure de les restituer auprès d'utilisateurs. Face à de petits jeux de données, elle ou il devra savoir choisir de façon raisonnée la meilleure approche et effectuer par le logiciel R les calculs nécessaires.
Pré-requis nécessaires
Un cours de calcul des probabilités de niveau Licence.
Pré-requis recommandés : Un cours de statistiques descriptives de niveau Licence serait un atout.
Contrôle des connaissances
CC + CT avec la formule : note finale = max(CT, (CC+CT)/2)
Syllabus
1. Modèle statistique paramétrique
a) Modèle statistique paramétrique;
b) Modèle d'échantillonnage iid ;
c) Rappels sur les théorèmes asymptotiques (LGN, TCL, Delta-méthode).
d) Notion de statistique - caractéristiques empiriques d'un échantillon & lois asymptotiques.
2. Famille exponentielle
a) Définition
b) Moments.
3. Score et information de Fisher
a) Score ;
b) Information de Fisher ;
c) Cas de la famille exponentielle.
4. Statistiques exhaustives
a) Exhaustivité & caractérisations
b) Statistique exhaustive minimale ; Statistique complète.
5. Estimation ponctuelle
a) Risque. Risque quadratique = biais2 + variance. Ordre sur les estimateurs. Absence d'estimateur optimal.
b) Estimateur sans biais: inégalité de Fréchet. Estimation efficace & famille exponentielle. Amélioration de Rao. ESB optimal & théorème de Lehmann-Scheffe.
c) Estimation du maximum de vraisemblance, propriétés asymptotiques.
d) Estimation par la méthode des moments, propriétés asymptotiques.
6. Estimation ensembliste
a) Région de confiance.
b) Pivot.
c) Région de confiance asymptotique.
7. Tests d'hypothèses
a) Problème de test: hypothèses, erreurs, pertes, risques associés, niveau et puissance. Fonction de test. Test pur vs test mixte.
b) Absence de test optimal. Test sans biais. Test convergent.
c) Principe de Neyman.
d) Test d'hypothèses simples: test PP de Neyman.
e) Tests d'hypothèses unilatérales: famille à rapport de vraisemblances monotone & tests UPP.
f) Tests d'hypothèses bilatérales: famille exponentielle & tests UPPSB.
g) Lien entre régions d'acceptation d'un test et régions de confiance.
h) Tests asymptotiques: test de Wald, test des scores de Rao, test du rapport des maxima de vraisemblance.
8. Problèmes à deux échantillons
Comparaison de paramètres: estimation et tests.
9. Tests d'adéquation
a) Test du chi2 & application au test d'indépendance.
b) Test de Kolmogorov-Smirnov.
c) Tests de normalité de Shapiro-Wilks.
Informations complémentaires
Volumes horaires :
CM : 21h
TD : 21h
TP :
Terrain :