Cet article décrit le Test T de Student indépendant, qui est utilisé pour comparer les moyennes de deux groupes indépendants. Ce test est aussi appelé test t de Student et Test t à variance égale. Par exemple, vous pourriez vouloir comparer les poids moyens des individus regroupés par sexe : les groupes d’hommes et de femmes, qui sont deux groupes non apparentés ou indépendants.
Le t-test pour échantillons indépendants se présente sous deux formes différentes:
- le test t standard de Student, qui suppose que la variance des deux groupes est égale.
- le test t de Welch, qui est moins restrictif que le test original de Student. Ce test est décrit dans un chapitre dédié.
Notez que le test t de Welch est considéré comme le plus prudent. Habituellement, les résultats du test t classique de Student et du test t de Welch sont très similaires, à moins que la taille des groupes et les écarts types soient très différents.
Dans cet article, vous apprendrez:
- Formule du test t de Student et hypothèses
- Comment calculer, interpréter et rapporter le test t de Student dans R.
- Comment vérifier les hypothèses du test t de Student
Sommaire:
Livre Apparenté
Pratique des Statistiques dans R II - Comparaison de Groupes: Variables NumériquesPrérequis
Assurez-vous d’avoir installé les paquets R suivants:
tidyverse
pour la manipulation et la visualisation des donnéesggpubr
pour créer facilement des graphiques prêts à la publicationrstatix
contient des fonctions R facilitant les analyses statistiques.datarium
: contient les jeux de données requis pour ce chapitre.
Commencez par charger les packages requis suivants:
library(tidyverse)
library(ggpubr)
library(rstatix)
Questions de recherche
Une question de recherche typique est : la moyenne du groupe A (\(m_A\)) est-elle égale à la moyenne du groupe B (\(m_B\)) ?
Hypothèses statistiques
- Hypothèse nulle (Ho) : les deux moyennes de groupes sont identiques (\(m_A = m_B\))
- Hypothèse alternative (Ha) : les deux moyennes de groupes sont différentes (\(m_A \ne m_B\))
Formule
Le t-test classique de Student est plus restrictif. Il suppose que les deux groupes ont la même variance de population. Si les variances des deux groupes sont équivalentes (homoscédasticité), la valeur du test t, comparant les deux échantillons (A et B), peut être calculée comme suit.
\[
t = \frac{m_A - m_B}{\sqrt{ \frac{S^2}{n_A} + \frac{S^2}{n_B} }}
\]
où,
- \(m_A\) et \(m_B\) représentent la valeur moyenne des groupes A et B, respectivement.
- \(n_A\) et \(n_B\) représentent les tailles des groupes A et B, respectivement.
- \(S^2\) est un estimateur de la variance mise en commun des deux groupes. Il peut être calculé comme suit :
\[
S^2 = \frac{\sum{(x-m_A)^2}+\sum{(x-m_B)^2}}{n_A+n_B-2}
\]
avec des degrés de liberté (df) : \(df = n_A + n_B - 2\).
Une p-value peut être calculée pour la valeur absolue correspondante de la statistique t (|t|).
Si la p-value est inférieure ou égale au seuil de significativité 0,05, nous pouvons rejeter l’hypothèse nulle et accepter l’hypothèse alternative. En d’autres termes, nous pouvons conclure que les valeurs moyennes des groupes A et B sont significativement différentes.
Hypothèses et tests préliminaires
Le test t à deux échantillons indépendants suppose les caractéristiques suivantes au sujet des données:
- Indépendance des observations. Chaque sujet ne doit appartenir qu’à un seul groupe.
- Aucune valeur aberrante significative dans les deux groupes
- Normalité. les données pour chaque groupe devraient être distribuées approximativement normalement.
- Homogénéité des variances. la variance de la variable-réponse devrait être égale dans chaque groupe.
Cliquez pour vérifier les [hypothèses du test t de Student] (https://www.datanovia.com/en/lessons/t-test-in-r).
Calcul du test dans R
Données de démonstration
Jeu de données de démonstration : genderweight
[package datarium] contenant le poids de 40 individus (20 femmes et 20 hommes).
Charger les données et afficher quelques lignes aléatoires par groupes:
# Charger les données
data("genderweight", package = "datarium")
# Afficher un échantillon des données par groupe
set.seed(123)
genderweight %>% sample_n_by(group, size = 2)
## # A tibble: 4 x 3
## id group weight
## <fct> <fct> <dbl>
## 1 6 F 65.0
## 2 15 F 65.9
## 3 29 M 88.9
## 4 37 M 77.0
Statistiques descriptives
Calculer quelques statistiques descriptives par groupe : moyenne et sd (écart-type)
genderweight %>%
group_by(group) %>%
get_summary_stats(weight, type = "mean_sd")
## # A tibble: 2 x 5
## group variable n mean sd
## <fct> <chr> <dbl> <dbl> <dbl>
## 1 F weight 20 63.5 2.03
## 2 M weight 20 85.8 4.35
Visualisation
Visualiser les données à l’aide de box plots. Graphique du poids par groupes.
bxp <- ggboxplot(
genderweight, x = "group", y = "weight",
ylab = "Weight", xlab = "Groups", add = "jitter"
)
bxp
Calculs
Nous allons utiliser la fonction t_test()
[package rstatix], facile d’utilisation, un emballage autour de la fonction de base R t.test()
.
Rappelons que, par défaut, R calcule le test t de Welch, qui est le plus prudent. Il s’agit du test où vous ne présumez pas que la variance est la même dans les deux groupes, ce qui donne les degrés de liberté fractionnaires suivants. Si vous voulez supposer l’égalité des variances (test t de Student), spécifiez l’option var.equal = TRUE
:
stat.test <- genderweight %>%
t_test(weight ~ group, var.equal = TRUE) %>%
add_significance()
stat.test
## # A tibble: 1 x 9
## .y. group1 group2 n1 n2 statistic df p p.signif
## <chr> <chr> <chr> <int> <int> <dbl> <dbl> <dbl> <chr>
## 1 weight F M 20 20 -20.8 38 2.33e-22 ****
Les résultats ci-dessus montrent les composantes suivantes:
.y.
: la variable y utilisée dans le test.group1,group2
: les groupes comparés dans les tests par paires.statistic
: Statistique de test utilisée pour calculer la p-value.df
: degrés de liberté.p
: p-value.
Notez que, vous pouvez obtenir un résultat détaillé en spécifiant l’option detailed = TRUE
.
d de Cohen pour le test t de Student
Cette valeur de l’effet est calculée en divisant la différence moyenne entre les groupes par l’écart-type regroupé.
La formule du d de Cohen:
d = (mean1 - mean2)/pooled.sd
, où:
pooled.sd
est l’écart-type commun des deux groupes.pooled.sd = sqrt([var1*(n1-1) + var2*(n2-1)]/[n1 + n2 -2])
;var1
etvar2
sont les variances (écart-type au carré) du groupe 1 et du groupe 2, respectivement.n1
etn2
sont les nombres d’échantillons pour les groupes 1 et 2, respectivement.mean1
etmean2
sont les moyennes de chaque groupe, respectivement.
Calculs:
genderweight %>% cohens_d(weight ~ group, var.equal = TRUE)
## # A tibble: 1 x 7
## .y. group1 group2 effsize n1 n2 magnitude
## * <chr> <chr> <chr> <dbl> <int> <int> <ord>
## 1 weight F M -6.57 20 20 large
L’ampleur de l’effet est importante, d = 6,57.
Rapporter
Nous pourrions rapporter le résultat comme suit:
Le poids moyen dans le groupe des femmes était de 63,5 (SD = 2,03), alors que la moyenne dans le groupe des hommes était de 85,8 (SD = 4,3). Un test-t de Student a montré que la différence était statistiquement significative, t(38) = -20,8, p < 0,0001, d = 6,57 ; où, t(38) est la notation abrégée pour une statistique t de Student qui a 38 degrés de liberté.
stat.test <- stat.test %>% add_xy_position(x = "group")
bxp +
stat_pvalue_manual(stat.test, tip.length = 0) +
labs(subtitle = get_test_label(stat.test, detailed = TRUE))
Résumé
Cet article décrit la formule et les principes de base du test t de Student. Des exemples de codes R sont fournis pour le calcul du test et de la taille de l’effet, l’interprétation et la communication des résultats.
Version: English
Hello, in the formula of S^2, for an independent t-test, what does x correspond to?