Funciones avanzadas disponibles en la aplicación
En statistiques appliquées, les données manquantes sont un phénomène courant qui peut fortement influencer les analyses et résultats. Une donnée manquante correspond à une information absente dans un jeu de données, que ce soit partiellement ou complètement.
Comprendre comment traiter ces données manquantes est essentiel pour garantir la qualité des conclusions tirées. Ce cours propose une approche détaillée, étape par étape, des méthodes et concepts clés nécessaires à cette gestion.
Donnée manquante : Valeur absente dans un jeu de données, là où une observation aurait dû être notée.
Mécanismes du manquement (Rubin, 1976) : Catégories définissant pourquoi et comment les données sont manquantes.
| Type | Définition | Impact |
|---|---|---|
| MCAR (Missing Completely At Random) | Données manquantes totalement aléatoires, indépendantes des variables observées/non observées | Pas de biais, affecte seulement la puissance statistique |
| MAR (Missing At Random) | Données manquantes dépendantes des variables observées mais pas des variables non observées | Méthodes de correction possibles si variables observées utilisées |
| MNAR (Missing Not At Random) | Données manquantes dépendant de la valeur même manquante (non observée) | Très difficile à corriger, nécessite modélisation complexe |
Les données manquantes peuvent :
Suppression complète des cas (Listwise deletion) : élimine toute observation avec au moins une donnée manquante.
Suppression des variables si un grand nombre de valeurs manquent pour une variable spécifique.
Remplacer les valeurs manquantes par des estimations fixes :
Avantages :
Inconvénients :
Imputation Multiple : Technique consistant à créer plusieurs jeux de données complétés par des valeurs imputées différentes, puis analyse combinée pour prendre en compte l'incertitude liée à l'imputation.
Étapes principales :
Avantages :
Inconvénients :
Le choix du traitement dépend principalement de :
[Diagramme]
Dans une étude médicale, 5% des patients n’ont pas rempli une question annexe sans critère particulier qui y est associé. Le chercheur peut enlever ces cas sans introduire de biais.
Dans une enquête, l’âge est manquant surtout chez les personnes ayant un faible revenu observé. Ces valeurs peuvent être imputées en tenant compte du revenu pour limiter le biais.
Une enquête sur le poids où les individus souffrant d’obésité tendent à ne pas fournir leur poids (manquant selon la valeur elle-même), nécessite une modélisation spéciale pour corriger.
| Méthode | Mécanisme adapté | Avantages | Limites |
|---|---|---|---|
| Suppression complète | MCAR | Simple, rapide | Perte d’échantillon, biais si non MCAR |
| Imputation simple | MCAR, parfois MAR | Facile à mettre en œuvre | Introduit un biais, sous-estime la variance |
| Imputation multiple | MAR | Prise en compte de l'incertitude | Complexe, nécessite modélisation correcte |
| Méthodes de modélisation | MNAR, autres | Ajuste spécifiquement les biais | Complexes, exigeantes en données et hypothèses |
Le traitement des données manquantes est un enjeu majeur en statistiques appliquées. Une mauvaise gestion peut entraîner des résultats biaisés et non fiables.
[Diagramme]
Cette fiche vous donne une base solide pour comprendre et appliquer efficacement le traitement des données manquantes dans vos données statistiques. N'oubliez pas : bien diagnostiquer le type de données manquantes oriente tout le reste du traitement !
