Chapitre 5 : Tableau de contingence

Le tableau de contingence est un outil statistique fondamental permettant d’analyser la relation entre deux variables qualitatives, souvent nominales ou catégorisées. Ce chapitre présente la méthode d’analyse basée sur ce tableau, illustrée par des exemples concrets, et explique comment tester statistiquement l’association entre variables à l’aide du test du khi carré (\chi^2) et quantifier la force de cette association avec l’indice de Cramer \phi_C.

1. Introduction au tableau de contingence

Le tableau de contingence sert à étudier la relation entre deux variables qualitatives. Il permet de répondre à des questions telles que : une personne plus grande pèse-t-elle plus lourd ? Le vote des habitants des zones rurales diffère-t-il de celui des zones urbaines ? Ou encore, existe-t-il une association entre le fait de fumer et celui d’avoir divorcé ? Ces questions impliquent une analyse bivariée, c’est-à-dire portant sur deux variables, souvent nominales ou catégorisées @doc2011CHAP 5 TABLEAU DE CONTIGENCE .pdf.

Le tableau de contingence recense les effectifs observés pour chaque combinaison des modalités des deux variables étudiées, ce qui permet d’analyser localement et globalement leur association.

2. Exemple univarié : influence des saisons sur le taux de suicide

Pour introduire la notion d’analyse par tableau de contingence, on commence par un exemple univarié, illustrant la comparaison entre effectifs observés et effectifs théoriques sous une hypothèse d’indépendance.

Données observées

Durkheim a étudié l’influence des saisons sur le taux de suicide en France entre 1835 et 1843. Les effectifs observés sont les suivants :

Saison	Printemps	Été	Automne	Hiver	Total
Effectif observé n_j	283	306	210	201	1000

Hypothèse d’indépendance

L’hypothèse nulle H_0 stipule que le comportement suicidaire est indépendant des saisons. Sous cette hypothèse, la répartition des suicides serait uniforme, soit 25 % pour chaque saison, donc 250 suicides par saison sur 1000 :

Saison	Printemps	Été	Automne	Hiver	Total
Effectif théorique n_j^*	250	250	250	250	1000

Résidus et test du khi carré

On calcule les résidus locaux, c’est-à-dire la différence entre effectifs observés et théoriques :

n_j - n_j^*

Par exemple, au printemps, l’écart est 283 - 250 = +33, soit une augmentation de 13,2 % par rapport à l’hypothèse d’indépendance. En automne, l’écart est négatif : 210 - 250 = -40, soit une diminution de 16 %.

Pour quantifier globalement cet écart, on utilise la statistique du \chi^2 définie par :

\chi^2 = \sum \frac{(n_j - n_j^)^2}{n_j^}

Dans cet exemple, \chi^2 = 32,904, ce qui indique une différence significative entre les observations et le modèle d’indépendance @doc2011CHAP 5 TABLEAU DE CONTIGENCE .pdf.

3. Analyse bivariée : association entre fumer et divorcer

Passons à un exemple plus complet avec deux variables qualitatives dichotomiques : fumer (oui/non) et divorcer (oui/non). L’objectif est d’étudier leur association à partir d’un échantillon de 1669 personnes mariées entre 1991 et 1993.

Tableau des effectifs observés

	A divorcé ? Oui	A divorcé ? Non	Total
Fume ? Oui	238	247	485
Fume ? Non	374	810	1184
Total	612	1057	1669

Calcul des effectifs théoriques sous indépendance

Sous l’hypothèse d’indépendance H_0, les effectifs théoriques sont calculés à partir des marges du tableau selon la formule :

n_{j:k}^* = \frac{(\text{total ligne } j) \times (\text{total colonne } k)}{n}

Par exemple, pour les fumeurs divorcés :

n_{\text{fumeur, divorcé}}^* = \frac{485 \times 612}{1669} = 177,8

Ce calcul est effectué pour chaque case, donnant un tableau d’effectifs théoriques.

Comparaison locale : écarts et taux de liaison locale

On étudie ensuite les écarts locaux entre effectifs observés et théoriques :

n_{j:k} - n_{j:k}^*

Par exemple, pour les fumeurs divorcés :

238 - 177,8 = +60,2

Un écart positif indique une attraction entre les modalités (ici, être fumeur est associé à un taux de divorce plus élevé), tandis qu’un écart négatif indique une répulsion.

Pour mieux interpréter ces écarts, on calcule le taux de liaison locale t_{j:k}, exprimant l’écart relatif en pourcentage :

t_{j:k} = \frac{n_{j:k} - n_{j:k}^}{n_{j:k}^}

Par exemple, pour les fumeurs divorcés :

t = \frac{60,2}{177,8} = 0,338 = 33,8

Ce taux indique que le nombre de fumeurs divorcés est 33,8 % plus élevé que ce que l’on attendrait sous indépendance.

Test global du khi carré

Pour évaluer globalement l’association entre les variables, on calcule la statistique \chi^2 :

\chi^2 = \sum \frac{(n_{j:k} - n_{j:k}^)^2}{n_{j:k}^}

Dans cet exemple, la somme des contributions au \chi^2 est :

\chi^2 = 20,383 + 11,797 + 8,346 + 4,833 = 45,359

Une valeur élevée de \chi^2 indique une forte différence entre les effectifs observés et attendus, suggérant une association significative entre fumer et divorcer.

Indice de Cramer \phi_C : mesure de la force de l’association

Pour quantifier la force de cette association, on calcule l’indice de Cramer \phi_C qui normalise \chi^2 en fonction de la taille de l’échantillon et du nombre de modalités :

\phi_C = \sqrt{\frac{\chi^2}{n \times (m-1)}}

où n est l’effectif total, et m = \min(I,c) avec I le nombre de lignes et c le nombre de colonnes.

Ici :

\phi_C = \sqrt{\frac{45,359}{1669 \times (2-1)}} = \sqrt{0,0272} = 0,165

L’interprétation de \phi_C suit une échelle de 0 (pas d’association) à 1 (association parfaite). La valeur 0,165 indique une association faible mais significative entre fumer et divorcer @doc2011CHAP 5 TABLEAU DE CONTIGENCE .pdf.

4. Synthèse du protocole d’analyse avec tableau de contingence

L’analyse par tableau de contingence suit un protocole clair et structuré :

Définition des variables : identifier les variables nominales ou catégoriques à étudier.
Construction du tableau de contingence : recenser les effectifs observés pour chaque combinaison des modalités.
Formulation de l’hypothèse d’indépendance H_0 : les variables sont indépendantes.
Calcul des effectifs théoriques : sous H_0, calculer les effectifs attendus à partir des marges.
Calcul des résidus locaux : différence entre effectifs observés et théoriques.
Calcul des taux de liaison locale : écarts relatifs exprimés en pourcentage.
Test global \chi^2 : quantifier la différence globale entre observations et modèle.
Calcul de l’indice de Cramer \phi_C : mesurer la force de l’association.
Interprétation des résultats : décider si les variables sont associées et évaluer la force de cette association.

Diagramme flowchart simplifié du protocole d’analyse

[Diagramme]

Diagramme Mermaid flowchart illustrant le processus détaillé d’analyse

[Diagramme]

5. Conclusion et points clés à retenir

Le tableau de contingence est un outil puissant pour analyser la relation entre deux variables qualitatives en comparant les effectifs observés aux effectifs attendus sous indépendance.
L’analyse locale des résidus et des taux de liaison locale permet de détecter précisément quelles modalités sont associées ou dissociées.
Le test global du khi carré (\chi^2) quantifie la différence globale entre les données et le modèle d’indépendance, permettant de valider ou rejeter l’hypothèse H_0.
L’indice de Cramer \phi_C mesure la force de l’association, allant de 0 (pas d’association) à 1 (association parfaite).
Dans l’exemple étudié, il existe une association faible mais significative entre le fait de fumer et le fait de divorcer, illustrant la complémentarité des analyses locale et globale @doc2011CHAP 5 TABLEAU DE CONTIGENCE .pdf @doc2011CHAP 5 TABLEAU DE CONTIGENCE .pdf.

Cette fiche synthétise les concepts clés du chapitre 5 sur le tableau de contingence, combinant théorie, exemples concrets, formules mathématiques et diagrammes pédagogiques pour une compréhension approfondie et pratique.

Chapitre 5 : Tableau de contingence

Chapitre 5 : Tableau de contingence

1. Introduction au tableau de contingence

2. Exemple univarié : influence des saisons sur le taux de suicide

Données observées

Hypothèse d’indépendance

Résidus et test du khi carré

3. Analyse bivariée : association entre fumer et divorcer

Tableau des effectifs observés

Calcul des effectifs théoriques sous indépendance

Comparaison locale : écarts et taux de liaison locale

Test global du khi carré

Indice de Cramer \phi_C : mesure de la force de l’association

4. Synthèse du protocole d’analyse avec tableau de contingence

Diagramme flowchart simplifié du protocole d’analyse

Diagramme Mermaid flowchart illustrant le processus détaillé d’analyse

5. Conclusion et points clés à retenir

Ver también

Transforma tu forma de aprender