Analyse statistique descriptive

Analyse Statistique DescriptiveNiveau : intermediate9 octobre 2025
Practice with this sheet
Create your flashcards, quizzes, and mock exams

Advanced features available in the app

  • Images
  • Mathematical formulas
  • Professional and academic diagrams in the app
Start for free

Fiche de Révision : Analyse Statistique Descriptive


Introduction

L'analyse statistique descriptive est la première étape essentielle pour comprendre un jeu de données. Elle consiste à résumer, organiser et présenter les données de manière claire et synthétique, sans faire d’inférence ni de prédiction. C’est une phase exploratoire qui facilite la compréhension rapide des caractéristiques principales de la donnée avant toute autre analyse.


1. Objectifs de l’analyse descriptive

  • Décrire les caractéristiques essentielles d’un ensemble de données.
  • Synthétiser l’information pour faciliter la compréhension.
  • Représenter visuellement les données.
  • Identifier les tendances, la dispersion, la forme et les éventuelles anomalies.

2. Types de données

Avant l’analyse descriptive, il est important de bien identifier la nature des données, car les méthodes varient selon :

Type de donnéesDescriptionExemples
Données qualitatives (catégorielles)Données non numériques réparties en catégoriesSexe, couleur, pays
Données quantitatives (numériques)Données mesurables représentant une quantitéTaille, poids, âge

Les données quantitatives peuvent être discrètes (ex : nombre d’enfants) ou continues (ex : poids, taille).


3. Mesures de tendance centrale

Ces mesures indiquent une valeur représentative de la série statistique.

  • Moyenne ((\bar{x})) : somme des valeurs divisée par le nombre d’observations.

    Moyenne : Valeur qui divise la somme totale des données par le nombre d’éléments.

    [ \bar{x} = \frac{\sum_{i=1}^n x_i}{n} ]

  • Médiane (Me) : valeur qui partage la série en deux parties égales (50% des valeurs sont en dessous et 50% au-dessus).

  • Mode (Mo) : valeur la plus fréquente dans la série.


Exemple concret

Supposons un échantillon des températures (°C) : 15, 17, 17, 20, 22, 22, 22, 25, 30

  • Moyenne = (\frac{15+17+17+20+22+22+22+25+30}{9} = 21.1)
  • Médiane = 22 (5ème valeur ordonnée)
  • Mode = 22 (apparait 3 fois)

4. Mesures de dispersion

Elles renseignent sur l'étendue et la variabilité des données autour de la moyenne.

  • Étendue : différence entre la valeur maximale et minimale.

  • Variance ((s^2)) : moyenne des carrés des écarts à la moyenne.

    [ s^2 = \frac{\sum_{i=1}^n (x_i - \bar{x})^2}{n-1} ]

  • Écart-type (s) : racine carrée de la variance, exprime la dispersion en unités d’origine.

    [ s = \sqrt{s^2} ]

  • Coefficient de variation (CV) : rapport de l’écart-type à la moyenne (souvent en %), utile pour comparer la dispersion entre séries différentes.

    [ CV = \frac{s}{\bar{x}} \times 100 ]


Exemple

Avec les températures précédentes :

  • Étendue = 30 - 15 = 15

  • Calculons la variance et l’écart-type (exemple simplifié) :

    • (\bar{x} = 21.1)
    • Calcul des écarts au carré :
(x_i)Écart (x_i - \bar{x})((x_i - \bar{x})^2)
15-6.137.21
17-4.116.81
.........
  • Variance et écart-type donnent une idée de la concentration des données autour de la moyenne.

5. Mesures de forme

Elles décrivent la distribution des données au-delà de la tendance centrale et dispersion.

  • Asymétrie (skewness) : mesure la symétrie de la distribution.

    • Skewness = 0 → distribution symétrique
    • 0 → asymétrie positive (queue droite plus longue)

    • < 0 → asymétrie négative
  • Aplatissement (kurtosis) : mesure la concentration des données dans la zone centrale.

    • Plus la kurtosis est élevée, plus la distribution est pointue.
    • Kurtosis normale = 3 (ex : loi normale)

6. Représentation graphique

Les graphiques permettent de visualiser la distribution et la nature des données. Voici les principales représentations :

  • Histogramme : pour données quantitatives, permet de voir la répartition des fréquences.

  • Diagramme en barres : pour données qualitatives, montre la fréquence de chaque catégorie.

  • Boîte à moustaches (boxplot) : synthétise la médiane, les quartiles et identifie les valeurs aberrantes.

  • Diagramme circulaire (camembert) : visualise la proportion des catégories dans un tout.


Diagramme de flux : Processus d’analyse statistique descriptive

[Diagramme]


7. Statistiques descriptives spécifiques aux types de données

7.1 Données qualitatives

  • Effectif : nombre d’observations dans chaque catégorie.
  • Fréquence : proportion de chaque catégorie.
  • Mode : catégorie la plus fréquente.

7.2 Données quantitatives

  • Mesures de tendance centrale (moyenne, médiane, mode).
  • Mesures de dispersion (écart-type, variance, étendue).
  • Quartiles : divisent la distribution en quatre parts égales.
QuartileDéfinition
Q125% des données sont inférieures
Q2Médiane (50% des données sont inférieures)
Q375% des données sont inférieures

8. Synthèse et liens entre concepts

L'analyse statistique descriptive permet une vision globale et synthétique du jeu de données. Elle offre un cadre méthodologique pour :

  • Comprendre la nature et la forme des données.
  • Identifier les valeurs centrales (moyenne, médiane) qui résument les données.
  • Mesurer la variabilité et la dispersion pour évaluer la stabilité des données.
  • Visualiser et détecter des anomalies ou des distributions particulières via des graphiques.

Ces étapes sont la base fondamentale avant toute analyse plus avancée (inférentielle ou prédictive).


Conclusion

L’analyse statistique descriptive est un outil indispensable pour quiconque travaille avec des données. Maîtriser ses concepts permet de :

  • Résumer efficacement les données.
  • Faciliter les interprétations et la prise de décision.
  • Préparer la phase suivante d’analyse statistique (tests, modèles, prévisions).

Annexes : Récapitulatif des principales formules

MesureFormuleRemarque
Moyenne ((\bar{x}))(\frac{1}{n} \sum_{i=1}^n x_i)Mesure de tendance centrale
MédianeValeur centrale d’une série ordonnéeRésistant aux valeurs extrêmes
Variance ((s^2))(\frac{1}{n-1} \sum_{i=1}^n (x_i - \bar{x})^2)Mesure de dispersion
Écart-type ((s))(\sqrt{s^2})En unités d’origine
Coefficient de variation(\frac{s}{\bar{x}} \times 100)Comparaison entre séries

N’hésitez pas à pratiquer la synthèse à travers l’analyse de jeux de données réels (par exemple, données météorologiques ou économiques) pour renforcer la compréhension.

Agent CTA Background

Transform your learning experience

Get started nowJoin thousands of students who have already transformed their learning