Funciones avanzadas disponibles en la aplicación
Le tableau de contingence est un outil statistique fondamental permettant d’analyser la relation entre deux variables qualitatives, souvent nominales ou catégorisées. Ce chapitre présente la méthode d’analyse basée sur ce tableau, illustrée par des exemples concrets, et explique comment tester statistiquement l’association entre variables à l’aide du test du khi carré (\chi^2) et quantifier la force de cette association avec l’indice de Cramer \phi_C.
Le tableau de contingence sert à étudier la relation entre deux variables qualitatives. Il permet de répondre à des questions telles que : une personne plus grande pèse-t-elle plus lourd ? Le vote des habitants des zones rurales diffère-t-il de celui des zones urbaines ? Ou encore, existe-t-il une association entre le fait de fumer et celui d’avoir divorcé ? Ces questions impliquent une analyse bivariée, c’est-à-dire portant sur deux variables, souvent nominales ou catégorisées @doc2011CHAP 5 TABLEAU DE CONTIGENCE .pdf.
Le tableau de contingence recense les effectifs observés pour chaque combinaison des modalités des deux variables étudiées, ce qui permet d’analyser localement et globalement leur association.
Pour introduire la notion d’analyse par tableau de contingence, on commence par un exemple univarié, illustrant la comparaison entre effectifs observés et effectifs théoriques sous une hypothèse d’indépendance.
Durkheim a étudié l’influence des saisons sur le taux de suicide en France entre 1835 et 1843. Les effectifs observés sont les suivants :
| Saison | Printemps | Été | Automne | Hiver | Total |
|---|---|---|---|---|---|
| Effectif observé n_j | 283 | 306 | 210 | 201 | 1000 |
L’hypothèse nulle H_0 stipule que le comportement suicidaire est indépendant des saisons. Sous cette hypothèse, la répartition des suicides serait uniforme, soit 25 % pour chaque saison, donc 250 suicides par saison sur 1000 :
| Saison | Printemps | Été | Automne | Hiver | Total |
|---|---|---|---|---|---|
| Effectif théorique n_j^* | 250 | 250 | 250 | 250 | 1000 |
On calcule les résidus locaux, c’est-à-dire la différence entre effectifs observés et théoriques :
n_j - n_j^*
Par exemple, au printemps, l’écart est 283 - 250 = +33, soit une augmentation de 13,2 % par rapport à l’hypothèse d’indépendance. En automne, l’écart est négatif : 210 - 250 = -40, soit une diminution de 16 %.
Pour quantifier globalement cet écart, on utilise la statistique du \chi^2 définie par :
\chi^2 = \sum \frac{(n_j - n_j^)^2}{n_j^}
Dans cet exemple, \chi^2 = 32,904, ce qui indique une différence significative entre les observations et le modèle d’indépendance @doc2011CHAP 5 TABLEAU DE CONTIGENCE .pdf.
Passons à un exemple plus complet avec deux variables qualitatives dichotomiques : fumer (oui/non) et divorcer (oui/non). L’objectif est d’étudier leur association à partir d’un échantillon de 1669 personnes mariées entre 1991 et 1993.
| A divorcé ? Oui | A divorcé ? Non | Total | |
|---|---|---|---|
| Fume ? Oui | 238 | 247 | 485 |
| Fume ? Non | 374 | 810 | 1184 |
| Total | 612 | 1057 | 1669 |
Sous l’hypothèse d’indépendance H_0, les effectifs théoriques sont calculés à partir des marges du tableau selon la formule :
n_{j:k}^* = \frac{(\text{total ligne } j) \times (\text{total colonne } k)}{n}
Par exemple, pour les fumeurs divorcés :
n_{\text{fumeur, divorcé}}^* = \frac{485 \times 612}{1669} = 177,8
Ce calcul est effectué pour chaque case, donnant un tableau d’effectifs théoriques.
On étudie ensuite les écarts locaux entre effectifs observés et théoriques :
n_{j:k} - n_{j:k}^*
Par exemple, pour les fumeurs divorcés :
238 - 177,8 = +60,2
Un écart positif indique une attraction entre les modalités (ici, être fumeur est associé à un taux de divorce plus élevé), tandis qu’un écart négatif indique une répulsion.
Pour mieux interpréter ces écarts, on calcule le taux de liaison locale t_{j:k}, exprimant l’écart relatif en pourcentage :
t_{j:k} = \frac{n_{j:k} - n_{j:k}^}{n_{j:k}^}
Par exemple, pour les fumeurs divorcés :
t = \frac{60,2}{177,8} = 0,338 = 33,8
Ce taux indique que le nombre de fumeurs divorcés est 33,8 % plus élevé que ce que l’on attendrait sous indépendance.
Pour évaluer globalement l’association entre les variables, on calcule la statistique \chi^2 :
\chi^2 = \sum \frac{(n_{j:k} - n_{j:k}^)^2}{n_{j:k}^}
Dans cet exemple, la somme des contributions au \chi^2 est :
\chi^2 = 20,383 + 11,797 + 8,346 + 4,833 = 45,359
Une valeur élevée de \chi^2 indique une forte différence entre les effectifs observés et attendus, suggérant une association significative entre fumer et divorcer.
Pour quantifier la force de cette association, on calcule l’indice de Cramer \phi_C qui normalise \chi^2 en fonction de la taille de l’échantillon et du nombre de modalités :
\phi_C = \sqrt{\frac{\chi^2}{n \times (m-1)}}
où n est l’effectif total, et m = \min(I,c) avec I le nombre de lignes et c le nombre de colonnes.
Ici :
\phi_C = \sqrt{\frac{45,359}{1669 \times (2-1)}} = \sqrt{0,0272} = 0,165
L’interprétation de \phi_C suit une échelle de 0 (pas d’association) à 1 (association parfaite). La valeur 0,165 indique une association faible mais significative entre fumer et divorcer @doc2011CHAP 5 TABLEAU DE CONTIGENCE .pdf.
L’analyse par tableau de contingence suit un protocole clair et structuré :
[Diagramme]
[Diagramme]
Cette fiche synthétise les concepts clés du chapitre 5 sur le tableau de contingence, combinant théorie, exemples concrets, formules mathématiques et diagrammes pédagogiques pour une compréhension approfondie et pratique.
