Ce chapitre décrit les méthodes de vérification du test d’homogénéité des variances dans R sur deux groupes ou plus.
Certains tests statistiques, comme le test T sur deux échantillons indépendants et le test ANOVA, supposent que les variances sont égales entre les groupes.
Il existe différents tests de variance qui peuvent être utilisés pour évaluer l’égalité des variances. Il s’agit notamment:
- Test F : Comparez les variances de deux groupes. Les données doivent être normalement distribuées.
- Test de Bartlett : Comparer les variances de deux groupes ou plus. Les données doivent être normalement distribuées.
- Le test de Levene : Une alternative robuste au test de Bartlett qui est moins sensible aux écarts de normalité.
- Test de Fligner-Killeen : un test non paramétrique qui est très robuste contre les écarts de normalité.
Il est à noter que le test de Levene est le plus couramment utilisé dans la littérature.
Vous apprendrez comment comparer les variances dans R en utilisant chacun des tests mentionnés ci-dessus.
Sommaire:
Livre Apparenté
Pratique des Statistiques dans R II - Comparaison de Groupes: Variables NumériquesPrérequis
Charger le paquet tidyverse
pour faciliter la manipulation des données
library(tidyverse)
Données de démonstration: ToothGrowth
. Inspectez les données en affichant quelques lignes aléatoires.
# Préparation des données
ToothGrowth$dose <- as.factor(ToothGrowth$dose)
# Inspecter
set.seed(123)
sample_n(ToothGrowth, 6)
## len supp dose
## 1 14.5 VC 1
## 2 25.8 OJ 1
## 3 25.5 VC 2
## 4 25.5 OJ 2
## 5 22.4 OJ 2
## 6 7.3 VC 0.5
Test F : Comparez deux variances
Le test F est utilisé pour évaluer si les variances de deux populations (A et B) sont égales. Vous devez vérifier si les données sont normalement distribuées (Chapitre @ref(normality-test-in-r)) avant d’utiliser le test F.
Applications. La comparaison de deux variances est utile dans plusieurs cas, dont les suivants:
- Lorsque vous voulez effectuer un test-t à deux échantillons, vous devez vérifier l’égalité des variances des deux échantillons
- Lorsque vous souhaitez comparer la variabilité d’une nouvelle méthode de mesure à celle d’une ancienne méthode. La nouvelle méthode réduit-elle la variabilité de la mesure ?
Les hypothèses statistiques sont les suivantes:
- Hypothèse nulle (H0) : les variances des deux groupes sont égales.
- Hypothèse alternative (Ha) : les variances sont différentes.
Calculs. La statistique du test F peut être obtenue en calculant le rapport des deux variances Var(A)/Var(B)
. Plus ce rapport s’écarte de 1, plus l’évidence des variances inégales des population est forte.
Le test F peut être facilement calculé dans R à l’aide de la fonction var.test()
. Dans le code R suivant, nous voulons tester l’égalité des variances entre les deux groupes OJ et VC (dans la colonne “supp”) pour la variable len
.
res <- var.test(len ~ supp, data = ToothGrowth)
res
##
## F test to compare two variances
##
## data: len by supp
## F = 0.6, num df = 30, denom df = 30, p-value = 0.2
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
## 0.304 1.342
## sample estimates:
## ratio of variances
## 0.639
Interprétation. The p-value is p = 0.2 which is greater than the significance level 0.05. In conclusion, there is no significant difference between the two variances.
Compare multiple variances
This section describes how to compare multiple variances in R using Bartlett, Levene or Fligner-Killeen tests.
Statistical hypotheses. For all these tests that follow, the null hypothesis is that all populations variances are equal, the alternative hypothesis is that at least two of them differ. Consequently, p-values less than 0.05 suggest variances are significantly different and the homogeneity of variance assumption has been violated.
Le test de Bartlett
- Le test de Bartlett with one independent variable:
res <- bartlett.test(weight ~ group, data = PlantGrowth)
res
##
## Bartlett test of homogeneity of variances
##
## data: weight by group
## Bartlett's K-squared = 3, df = 2, p-value = 0.2
From the output, it can be seen that the p-value of 0.237 is not less than the significance level of 0.05. Cela signifie qu’il n’y a aucune preuve que la variance de la croissance des plantes soit statistiquement différente pour les trois groupes de traitement.
- Test de Bartlett avec plusieurs variables indépendantes : la fonction interaction() doit être utilisée pour réduire plusieurs facteurs en une seule variable contenant toutes les combinaisons des facteurs.
bartlett.test(len ~ interaction(supp,dose), data=ToothGrowth)
##
## Bartlett test of homogeneity of variances
##
## data: len by interaction(supp, dose)
## Bartlett's K-squared = 7, df = 5, p-value = 0.2
Le test de Levene
La fonction leveneTest()
[package car] peut être utilisée.
library(car)
# Test de Levene avec une variable indépendante
leveneTest(weight ~ group, data = PlantGrowth)
## Levene's Test for Homogeneity of Variance (center = median)
## Df F value Pr(>F)
## group 2 1.12 0.34
## 27
# Test de Levene avec de multiples variables indépendantes
leveneTest(len ~ supp*dose, data = ToothGrowth)
## Levene's Test for Homogeneity of Variance (center = median)
## Df F value Pr(>F)
## group 5 1.71 0.15
## 54
Le test de Fligner-Killeen
Le test de Fligner-Killeen est l’un des nombreux tests d’homogénéité des variances qui est le plus robuste contre les écarts de normalité.
La fonction R fligner.test()
peut être utilisée pour calculer le test:
fligner.test(weight ~ group, data = PlantGrowth)
##
## Fligner-Killeen test of homogeneity of variances
##
## data: weight by group
## Fligner-Killeen:med chi-squared = 2, df = 2, p-value = 0.3
Résumé
Cet article présente différents tests pour évaluer l’égalité des variances entre les groupes, une hypothèse faite par le test t à deux échantillons indépendants et les tests ANOVA.
La méthode couramment utilisée est le test de Levene disponible dans le package R car
. Un wrapper levene_test()
est également fourni dans le paquet rstatix
.
Version: English
No Comments