skip to content

Test de Khi-2

Rappel théorique

Le test de Khi-2 est utilisé pour tester l'hypothèse nulle d'absence de relation entre deux variables catégorielles. On peut également dire que ce test vérifie l'hypothèse d'indépendance de ces variables.

 

Si deux variables dépendent l’une de l’autre, elles partagent quelque chose, la variation de l'une influence la variation de l’autre…

Comme nous allons travailler avec des variables catégorielles, nous n’allons pas nous servir de la moyenne ou de la variance comme référence. Il ne serait en effet pas pertinent de calculer la moyenne d'une variable catégorielle, puisque les valeurs que nous accordons aux catégories sont aléatoires. De plus, la moyenne obtenue dépendrait du nombre d'observations dans chaque catégorie.

Par conséquent, nous allons plutôt travailler avec les fréquences (ou encore, les occurrences ou les proportions) obtenues dans chaque cellule du tableau croisé.

 

L’hypothèse nulle

L’hypothèse nulle est la même que dans les tests précédents : l’absence de relation, mais cette fois-ci entre deux variables catégorielles.

Nous pouvons aussi dire que les deux variables sont indépendantes. L’indépendance signifie que la valeur d’une des deux variables ne nous donne aucune information sur la valeur possible de l’autre variable. Lorsqu’il n'existe aucune relation entre deux variables catégorielles (ou continues), on dit que les variables sont indépendantes l’une de l’autre. Il ne faut pas confondre cette expression avec l’appellation « variable indépendante ».

L'hypothèse alternative est donc qu'il existe une relation entre les variables ou que les deux variables sont dépendantes.

 

Prémisses du test du Khi-2

Les observations doivent être indépendantes, ce qui signifie que les sujets apparaissent une fois dans le tableau et que les catégories des variables sont mutuellement exclusives. 

La plupart des occurrences attendues (fréquences théoriques) d’un tableau croisé doivent être supérieures ou égales à 5 et aucune occurrence attendue ne doit être inférieure à 1 (au moins 75 % des cellules).

 

La statistique du Khi-2

Lorsque l’on a voulu tester l’hypothèse nulle de l’égalité des moyennes de deux échantillons (dépendants ou indépendants), nous avons calculé la statistique t.  Puis, à l’aide de la distribution t, nous avons déterminé dans quelle mesure la valeur t obtenue était « inhabituelle » si l’hypothèse nulle était vraie.

Dans le cas de tableau croisé où l’on travaille avec des occurrences, nous allons calculer la statistique Khi-2 et comparer sa valeur à l’aide de la distribution Khi-2 dans le but de déterminer dans quelle mesure cette valeur est « inhabituelle » si l’hypothèse nulle est vraie. 

Mentionnons qu’au contraire des autres techniques présentées dans les modules précédents, le Khi- 2 est une analyse dite non-paramétrique, car elle n’est pas basée sur les prémisses des paramètres de la distribution de la variable dans la population (moyenne, écart-type et normalité). Il existe d’autres tests non-paramétriques, mais nous ne les verrons pas.

 

Calcul du khi-2

L’élément fondamental du tableau croisé est le nombre d’occurrences dans chaque cellule du tableau.  La procédure statistique que nous allons employer pour tester l’hypothèse nulle compare les occurrences observées (celles déjà dans le tableau) avec les occurrences attendues.L’occurrence attendue est simplement la fréquence que l’on devrait trouver dans une cellule si l’hypothèse nulle était vraie.

Faites ces opérations pour chaque cellule du tableau croisé :

 

 

1. Trouvez l’occurrence attendue :

Si l’hypothèse nulle est vraie, on s’attend à ce que les pourcentages du tableau soient les mêmes pour les hommes et les femmes, donc qu’ils répondent pareillement à la question. On parle du pourcentage parce que les hommes et les femmes ne sont pas nécessairement en nombre égaux dans l’échantillon. Dans le tableau croisé ci-dessous, nous remarquons que 53,5 % de tous les répondants croient que la liberté d'expression est plus importante et que 46,5 % croient l'inverse. Si l'hypothèse nulle est vraie, ces pourcentages sont les meilleurs estimés des pourcentages que l'on devrait trouver pour les hommes et les femmes. Pour convertir ces pourcentages en occurrences (fréquence), il faut multiplier l'estimé par le nombre d'hommes et de femmes.

La façon la plus simple de calculer les occurrences attendues est de prendre l’occurrence observée d’une cellule, de multiplier le total de rangée de cette cellule par le total de colonne de cette même cellule et de diviser par le nombre total d’occurrences observées du tableau (grand total). Par exemple, pour les femmes, l'occurrence attentude pour la liberté d'expression est : 53,5 % x 472 = 252,5.

 

 

2. Trouvez la différence entre l’occurrence observée et attendue

On peut demander, sous le bouton Cells, le calcul des occurrences attendues et du résiduel. Le résiduel est simplement la différence entre l’occurrence observée et attendue. Un résiduel positif indique qu’il y a plus d’occurrences comparativement à ce qu’on s’attendrait à observer si l’hypothèse nulle était vraie. Ceci est aussi vrai à l’inverse pour les résiduels négatifs.

3. Élevez le résultat de cette différence au carré

 

4. Divisez cette différence au carré par l’occurrence attendue

 

5. Additionnez ce résultat à celui des autres cellules

 

Plus l’occurrence observée est près de l’occurrence attendue, plus la fraction calculée pour chaque cellule est petite et moins l’écart avec H0 est grand. Même si l’hypothèse nulle est vraie, il est possible que ces deux valeurs d’occurrences ne soient pas exactement les mêmes en raison de la variabilité échantillonnale. Nous avons donc à déterminer la probabilité d’observer une valeur de Khi-2 égale ou plus grande lorsque l’hypothèse nulle est vraie.

La distribution Khi-2 demande (tout comme l’analyse de variance) le calcul du degré de liberté, car cette distribution varie de forme en fonction du degré de liberté du tableau croisé. Cependant, le calcul du degré de liberté ne dépend pas du nombre de sujets, mais plutôt du nombre de rangées (Ligne) et de colonnes (Colonne) dans votre tableau croisé.

 

Degré de liberté = (nombre de rangées – 1) X (nombre de colonnes – 1)

 

Dans ce cas-ci, le degré de liberté de la distribution Khi-2 est de 1. Il suffit maintenant d'aller comparer cette statistique Khi-2 à la table de distribution Khi-2 paramétrée par le degré de liberté en fonction du niveau de signification choisi (généralement p < 0,05). Il sera alors possible ou non de rejeter l'hypothèse nulle d'absence de relation.

 

La taille d'effet : la force de l'association

Il est possible d'apprécier la force de l'association entre les variables catégorielles à partir des tests complémentaires sur les mesures symétriques.

Ces mesures sont basées sur la statistique Khi-2 qui a été modifiée pour tenir compte de la taille de l'échantillon et des degrés de liberté.

Le résultat de ces tests se situe entre 0 et 1.

Les plus fréquemment utilisés sont le Phi et le V de Cramer (pour deux variables catégorielles, ils donnent des résultats identiques, mais lorsque plus de deux variables sont mises en relation, le V de Cramer peut atteindre sa valeur maximale (1), donc il est plus utile).

Les balises de Cohen (1988) pour évaluer la force de l'association sont les suivantes :

 

 

 

Haut de page