Advanced features available in the app
L'analyse statistique descriptive est la première étape essentielle pour comprendre un jeu de données. Elle consiste à résumer, organiser et présenter les données de manière claire et synthétique, sans faire d’inférence ni de prédiction. C’est une phase exploratoire qui facilite la compréhension rapide des caractéristiques principales de la donnée avant toute autre analyse.
Avant l’analyse descriptive, il est important de bien identifier la nature des données, car les méthodes varient selon :
| Type de données | Description | Exemples |
|---|---|---|
| Données qualitatives (catégorielles) | Données non numériques réparties en catégories | Sexe, couleur, pays |
| Données quantitatives (numériques) | Données mesurables représentant une quantité | Taille, poids, âge |
Les données quantitatives peuvent être discrètes (ex : nombre d’enfants) ou continues (ex : poids, taille).
Ces mesures indiquent une valeur représentative de la série statistique.
Moyenne ((\bar{x})) : somme des valeurs divisée par le nombre d’observations.
Moyenne : Valeur qui divise la somme totale des données par le nombre d’éléments.
[ \bar{x} = \frac{\sum_{i=1}^n x_i}{n} ]
Médiane (Me) : valeur qui partage la série en deux parties égales (50% des valeurs sont en dessous et 50% au-dessus).
Mode (Mo) : valeur la plus fréquente dans la série.
Supposons un échantillon des températures (°C) : 15, 17, 17, 20, 22, 22, 22, 25, 30
Elles renseignent sur l'étendue et la variabilité des données autour de la moyenne.
Étendue : différence entre la valeur maximale et minimale.
Variance ((s^2)) : moyenne des carrés des écarts à la moyenne.
[ s^2 = \frac{\sum_{i=1}^n (x_i - \bar{x})^2}{n-1} ]
Écart-type (s) : racine carrée de la variance, exprime la dispersion en unités d’origine.
[ s = \sqrt{s^2} ]
Coefficient de variation (CV) : rapport de l’écart-type à la moyenne (souvent en %), utile pour comparer la dispersion entre séries différentes.
[ CV = \frac{s}{\bar{x}} \times 100 ]
Avec les températures précédentes :
Étendue = 30 - 15 = 15
Calculons la variance et l’écart-type (exemple simplifié) :
| (x_i) | Écart (x_i - \bar{x}) | ((x_i - \bar{x})^2) |
|---|---|---|
| 15 | -6.1 | 37.21 |
| 17 | -4.1 | 16.81 |
| ... | ... | ... |
Elles décrivent la distribution des données au-delà de la tendance centrale et dispersion.
Asymétrie (skewness) : mesure la symétrie de la distribution.
0 → asymétrie positive (queue droite plus longue)
Aplatissement (kurtosis) : mesure la concentration des données dans la zone centrale.
Les graphiques permettent de visualiser la distribution et la nature des données. Voici les principales représentations :
Histogramme : pour données quantitatives, permet de voir la répartition des fréquences.
Diagramme en barres : pour données qualitatives, montre la fréquence de chaque catégorie.
Boîte à moustaches (boxplot) : synthétise la médiane, les quartiles et identifie les valeurs aberrantes.
Diagramme circulaire (camembert) : visualise la proportion des catégories dans un tout.
[Diagramme]
| Quartile | Définition |
|---|---|
| Q1 | 25% des données sont inférieures |
| Q2 | Médiane (50% des données sont inférieures) |
| Q3 | 75% des données sont inférieures |
L'analyse statistique descriptive permet une vision globale et synthétique du jeu de données. Elle offre un cadre méthodologique pour :
Ces étapes sont la base fondamentale avant toute analyse plus avancée (inférentielle ou prédictive).
L’analyse statistique descriptive est un outil indispensable pour quiconque travaille avec des données. Maîtriser ses concepts permet de :
| Mesure | Formule | Remarque |
|---|---|---|
| Moyenne ((\bar{x})) | (\frac{1}{n} \sum_{i=1}^n x_i) | Mesure de tendance centrale |
| Médiane | Valeur centrale d’une série ordonnée | Résistant aux valeurs extrêmes |
| Variance ((s^2)) | (\frac{1}{n-1} \sum_{i=1}^n (x_i - \bar{x})^2) | Mesure de dispersion |
| Écart-type ((s)) | (\sqrt{s^2}) | En unités d’origine |
| Coefficient de variation | (\frac{s}{\bar{x}} \times 100) | Comparaison entre séries |
N’hésitez pas à pratiquer la synthèse à travers l’analyse de jeux de données réels (par exemple, données météorologiques ou économiques) pour renforcer la compréhension.
