Test T - L' Essentiel : Définition, Formule et Calcul

Test T non Apparié

Le test-t non apparié est utilisé pour comparer la moyenne de deux groupes indépendants. C’est aussi connu sous le nom de:

  • test-t pour échantillons indépendants,
  • test t indépendant,
  • test t pour 2 échantillons,
  • test t à deux échantillons,
  • test-t pour mesures indépendantes,
  • test-t pour groupes indépendants,
  • test-t de Student non apparié,
  • t-test inter-sujets et
  • Test t de Student.

Par exemple, vous pourriez vouloir comparer les poids moyens des individus regroupés par sexe : les groupes d’hommes et de femmes, qui sont deux groupes non apparentés ou indépendants.

En règle générale, votre étude devrait compter six participants ou plus dans chaque groupe afin de procéder à un test t non apparié, mais idéalement, vous devriez avoir plus. Un test t sur échantillons indépendants peut être effectué avec moins de six participants, mais il sera plus difficile de généraliser les conclusions à une population plus large.

Le t-test pour échantillons indépendants se présente sous deux formes différentes:

  • le test t standard de Student, qui suppose que la variance des deux groupes est égale.
  • le test t de Welch, qui est moins restrictif que le test original de Student. Il s’agit du test où vous ne présumez pas que la variance est la même dans les deux groupes, ce qui donne les degrés de liberté fractionnaires suivants.

Par défaut, R calcule le test t de Welch, qui est le plus prudent. Les deux méthodes donnent des résultats très semblables, à moins que la taille des groupes et les écarts-types ne soient très différents.

Dans cet article, vous apprendrez à:

  • Calculer le test t pour échantillons indépendants dans R. La fonction t_test() [paquet rstatix], qui est compatible avec les pipes, sera utilisée.
  • Vérifier les hypothèses du test t des échantillons indépendants
  • Calculez et rapportez la taille de l’effet du test t pour échantillons indépendants en utilisant le d de Cohen. La statistique “d” redéfinit la différence de moyennes comme le nombre d’écarts-types qui sépare ces moyennes. Les tailles d’effet conventionnelles des tests T, proposées par Cohen, sont : 0,2 (petit effet), 0,5 (effet modéré) et 0,8 (effet important) (Cohen 1998).


Sommaire:

Livre Apparenté

Pratique des Statistiques dans R II - Comparaison de Groupes: Variables Numériques

Prérequis

Assurez-vous d’avoir installé les paquets R suivants:

  • tidyverse pour la manipulation et la visualisation des données
  • ggpubr pour créer facilement des graphiques prêts à la publication
  • rstatix contient des fonctions R facilitant les analyses statistiques.
  • datarium: contient les jeux de données requis pour ce chapitre.

Commencez par charger les packages requis suivants:

library(tidyverse)
library(ggpubr)
library(rstatix)

Questions de recherche

Les questions de recherche typiques sont:

  1. si la moyenne du groupe A (\(m_A\)) est égale à la moyenne du groupe B (\(m_B\)) ?
  2. si la moyenne du groupe A (\(m_A\)) est inférieure à la moyenne du groupe B (\(m_B\)) ?
  3. si la moyenne du groupe A (\(m_A\)) est supérieure à la moyenne du groupe B (\(m_B\)) ?

Hypothèses statistiques

En statistique, on peut définir l’hypothèse nulle correspondante (\(H_0\)) comme suit:

  1. \(H_0 : m_A = m_B\)
  2. \(H_0 : m_A \leq m_B\)
  3. \(H_0 : m_A \geq m_B\)

Les hypothèses alternatives correspondantes (\(H_a\)) sont les suivantes:

  1. \(H_a : m_A \ne m_B\) (différent)
  2. \(H_a : m_A > m_B\) (greater)
  3. \(H_a : m_A < m_B\) (less)

Notez que:

  • Les hypothèses 1) sont appelées tests bilatéraux
  • Les hypothèses 2) et 3) sont appelées tests unilatéraux

Formule

Le test-t pour échantillons indépendants se présente sous deux formes différentes, le test-t de Student et le test-t de Welch.

Le t-test classique de Student est plus restrictif. Il suppose que les deux groupes ont la même variance de population.

  1. Test t classique à deux échantillons indépendants (test t de Student). Si les variances des deux groupes sont équivalentes (homoscédasticité), la valeur du test t, comparant les deux échantillons (A et B), peut être calculée comme suit.

\[
t = \frac{m_A - m_B}{\sqrt{ \frac{S^2}{n_A} + \frac{S^2}{n_B} }}
\]

où,

  • \(m_A\) et \(m_B\) représentent la valeur moyenne des groupes A et B, respectivement.
  • \(n_A\) et \(n_B\) représentent les tailles des groupes A et B, respectivement.
  • \(S^2\) est un estimateur de la variance mise en commun des deux groupes. Il peut être calculé comme suit :

\[
S^2 = \frac{\sum{(x-m_A)^2}+\sum{(x-m_B)^2}}{n_A+n_B-2}
\]

avec des degrés de liberté (df) : \(df = n_A + n_B - 2\).

  1. Statistique t de Welch. Si les variances des deux groupes comparés sont différentes (hétéroscédasticité), il est possible d’utiliser le test t de Welch, qui est une adaptation du test t de Student. La statistique t de Welch est calculée comme suit :

\[
t = \frac{m_A - m_B}{\sqrt{ \frac{S_A^2}{n_A} + \frac{S_B^2}{n_B} }}
\]

où, \(S_A\) et \(S_B\) sont les écart-types des deux groupes A et B, respectivement.

Contrairement au t-test classique de Student, la formule du t-test de Welch implique que la variance de chacun des deux groupes (\(S_A^2\) et \(S_B^2\)) comparés. En d’autres termes, il n’utilise pas la variance groupée \(S\).

Le degré de liberté du test t de Welch est estimé comme suit :

\[
df = (\frac{S_A^2}{n_A}+ \frac{S_B^2}{n_B})^2 / (\frac{S_A^4}{n_A^2(n_A-1)} + \frac{S_B^4}{n_B^2(n_B-1)} )
\]

Une p-value peut être calculée pour la valeur absolue correspondante de la statistique t (|t|).

Si la p-value est inférieure ou égale au seuil de significativité 0,05, nous pouvons rejeter l’hypothèse nulle et accepter l’hypothèse alternative. En d’autres termes, nous pouvons conclure que les valeurs moyennes des groupes A et B sont significativement différentes.

Notez que le test t de Welch est considéré comme le plus prudent. Habituellement, les résultats du test t classique de Student et du test t de Welch sont très similaires, à moins que la taille des groupes et les écarts types soient très différents.

Données de démonstration

Jeu de données de démonstration : genderweight [package datarium] contenant le poids de 40 individus (20 femmes et 20 hommes).

Charger les données et afficher quelques lignes aléatoires par groupes:

# Charger les données
data("genderweight", package = "datarium")
# Afficher un échantillon des données par groupe
set.seed(123)
genderweight %>% sample_n_by(group, size = 2)
## # A tibble: 4 x 3
##   id    group weight
##   <fct> <fct>  <dbl>
## 1 6     F       65.0
## 2 15    F       65.9
## 3 29    M       88.9
## 4 37    M       77.0

Statistiques descriptives

Calculer quelques statistiques descriptives par groupe : moyenne et sd (écart-type)

genderweight %>%
  group_by(group) %>%
  get_summary_stats(weight, type = "mean_sd")
## # A tibble: 2 x 5
##   group variable     n  mean    sd
##   <fct> <chr>    <dbl> <dbl> <dbl>
## 1 F     weight      20  63.5  2.03
## 2 M     weight      20  85.8  4.35

Visualisation

Visualiser les données à l’aide de box plots. Graphique du poids par groupes.

bxp <- ggboxplot(
  genderweight, x = "group", y = "weight", 
  ylab = "Weight", xlab = "Groups", add = "jitter"
  )
bxp

Hypothèses et tests préliminaires

Le test t pour échantillons indépendant assume les caractéristiques suivantes au sujet des données:

  • Indépendance des observations. Chaque sujet ne doit appartenir qu’à un seul groupe. Il n’y a aucun lien entre les observations de chaque groupe.
  • Aucune valeur aberrante significative dans les deux groupes
  • Normalité. les données pour chaque groupe devraient être distribuées approximativement normalement.
  • Homogénéité des variances. la variance de la variable-réponse devrait être égale dans chaque groupe.

Dans cette section, nous effectuerons quelques tests préliminaires pour vérifier si ces hypothèses sont respectées.

Identifier les valeurs aberrantes

Les valeurs aberrantes peuvent être facilement identifiées à l’aide des méthodes boxplot, implémentées dans la fonction R identify_outliers() [paquet rstatix].

genderweight %>%
  group_by(group) %>%
  identify_outliers(weight)
## # A tibble: 2 x 5
##   group id    weight is.outlier is.extreme
##   <fct> <fct>  <dbl> <lgl>      <lgl>     
## 1 F     20      68.8 TRUE       FALSE     
## 2 M     31      95.1 TRUE       FALSE

Il n’y avait pas de valeurs extrêmes aberrantes.

Notez que, dans le cas où vous avez des valeurs extrêmes aberrantes, cela peut être dû à : 1) erreurs de saisie de données, erreurs de mesure ou valeurs inhabituelles.

Vous pouvez de toute façon inclure la valeur aberrante dans l’analyse si vous ne croyez pas que le résultat sera affecté de façon substantielle. Cela peut être évalué en comparant le résultat du test t avec et sans la valeur aberrante.

Il est également possible de conserver les valeurs aberrantes dans les données et d’effectuer un test Wilcoxon ou un test t robuste en utilisant le progiciel WRS2.

Vérifier la normalité par groupes

L’hypothèse de normalité peut être vérifiée en calculant le test de Shapiro-Wilk pour chaque groupe. Si les données sont normalement distribuées, la p-value doit être supérieure à 0,05.

genderweight %>%
  group_by(group) %>%
  shapiro_test(weight)
## # A tibble: 2 x 4
##   group variable statistic     p
##   <fct> <chr>        <dbl> <dbl>
## 1 F     weight       0.938 0.224
## 2 M     weight       0.986 0.989

D’après le résultat, les deux p-values sont supérieures au seuil de significativité 0,05, ce qui indique que la distribution des données n’est pas significativement différente de la distribution normale. En d’autres termes, nous pouvons supposer que la normalité.

Vous pouvez également créer des QQ plots pour chaque groupe. Le graphique QQ plot dessine la corrélation entre une donnée définie et la distribution normale.

ggqqplot(genderweight, x = "weight", facet.by = "group")

Tous les points se situent approximativement le long de la ligne de référence (45 degrés), pour chaque groupe. Nous pouvons donc supposer la normalité des données.

Notez que, si la taille de votre échantillon est supérieure à 50, le graphique de normalité QQ plot est préféré parce qu’avec des échantillons de plus grande taille, le test de Shapiro-Wilk devient très sensible même à un écart mineur par rapport à la distribution normale.

Il est à noter que, dans le cas où les données ne sont pas normalement distribuées, il est recommandé d’utiliser le test de Wilcoxon non paramétrique à deux échantillons.

Vérifier l’égalité des variances

Ceci peut être fait à l’aide du test de Levene. Si les variances des groupes sont égales, la p-value doit être supérieure à 0,05.

genderweight %>% levene_test(weight ~ group)
## # A tibble: 1 x 4
##     df1   df2 statistic      p
##   <int> <int>     <dbl>  <dbl>
## 1     1    38      6.12 0.0180

La p-value du test de Levene est significative, ce qui suggère qu’il existe une différence significative entre les variances des deux groupes. Par conséquent, nous utiliserons le test t de Welch, qui ne suppose pas l’égalité des deux variances.

Calculs

Nous voulons savoir si les poids moyens sont différents d’un groupe à l’autre.

Nous allons utiliser la fonction t_test() [package rstatix], facile d’utilisation, un emballage autour de la fonction de base R t.test().

Rappelons que, par défaut, R calcule le test t de Welch, qui est le plus prudent. Il s’agit du test où vous ne présumez pas que la variance est la même dans les deux groupes, ce qui donne les degrés de liberté fractionnaires suivants.

stat.test <- genderweight %>% 
  t_test(weight ~ group) %>%
  add_significance()
stat.test
## # A tibble: 1 x 9
##   .y.    group1 group2    n1    n2 statistic    df        p p.signif
##   <chr>  <chr>  <chr>  <int> <int>     <dbl> <dbl>    <dbl> <chr>   
## 1 weight F      M         20    20     -20.8  26.9 4.30e-18 ****

Si vous voulez supposer l’égalité des variances (test t de Student), spécifiez l’option var.equal = TRUE:

stat.test2 <- genderweight %>%
  t_test(weight ~ group, var.equal = TRUE) %>%
  add_significance()
stat.test2

Les résultats ci-dessus montrent les composantes suivantes:

  • .y.: la variable y utilisée dans le test.
  • group1,group2: les groupes comparés dans les tests par paires.
  • statistic: Statistique de test utilisée pour calculer la p-value.
  • df: degrés de liberté.
  • p: p-value.

Notez que, vous pouvez obtenir un résultat détaillé en spécifiant l’option detailed = TRUE.

Notez que, pour calculer un test-t unilatéral à deux échantillons, vous pouvez spécifier l’option alternative comme suit.

  • si vous voulez tester si le poids moyen des femmes (groupe 1) est inférieur à celui des hommes, tapez ceci:
genderweight %>% 
  t_test(weight ~ group, alternative = "less")
  • Ou, si vous voulez vérifier si le poids moyen des femmes (groupe 1) est supérieur à celui des hommes (groupe 2), tapez ceci
genderweight %>% 
  t_test(weight ~ group, alternative = "greater")

Taille de l’effet

d de Cohen pour le test t de Student

Il existe plusieurs versions du d de Cohen pour le test t de Student. La version la plus couramment utilisée de la taille de l’effet du test t de Student, comparant deux groupes (A et B), est calculée en divisant la différence moyenne entre les groupes par l’écart-type commun.

La formule du d de Cohen:

\[
d = \frac{m_A - m_B}{SD_{pooled}}
\]

où,

  • \(m_A\) et \(m_B\) représentent la valeur moyenne des groupes A et B, respectivement.
  • \(n_A\) et \(n_B\) représentent les tailles des groupes A et B, respectivement.
  • \(SD_{pooled}\) est un estimateur de l’écart-type mis en commun des deux groupes. Il peut être calculé comme suit :
    \[
    SD_{pooled} = \sqrt{\frac{\sum{(x-m_A)^2}+\sum{(x-m_B)^2}}{n_A+n_B-2}}
    \]

Calculs. Si l’option var.equal = TRUE, alors la SD groupée est utilisée lors du calcul du d de Cohen.

genderweight %>%  cohens_d(weight ~ group, var.equal = TRUE)
## # A tibble: 1 x 7
##   .y.    group1 group2 effsize    n1    n2 magnitude
## * <chr>  <chr>  <chr>    <dbl> <int> <int> <ord>    
## 1 weight F      M        -6.57    20    20 large

L’ampleur de l’effet est importante, d = 6,57.

Notez que, pour un échantillon de petite taille (< 50), le d de Cohen a tendance à gonfler les résultats. Il existe une version corrigée de Hedge du d de Cohen (???), qui réduit la taille de l’effet pour les petits échantillons de quelques points de pourcentage. La correction est introduite en multipliant la valeur habituelle de d par (N-3)/(N-2.25) (pour le test t non apparié) et par (n1-2)/(n1-1.25) pour le test t apparié ; où N est la taille totale des deux groupes comparés (N = n1 + n2).

Le d de Cohen pour le test t de Welch

Le test de Welch est une variante du test t utilisé lorsque l’égalité de variance ne peut être présumée. La valeur de l’effet peut être calculée en divisant la différence moyenne entre les groupes par l’écart type “moyen”.

La formule du d de Cohen:

\[
d = \frac{m_A - m_B}{\sqrt{(Var_1 + Var_2)/2}}
\]

où,

  • \(m_A\) et \(m_B\) représentent la valeur moyenne des groupes A et B, respectivement.
  • \(Var_1\) et \(Var_2\) sont la variance des deux groupes.

Calculs:

genderweight %>% cohens_d(weight ~ group, var.equal = FALSE)
## # A tibble: 1 x 7
##   .y.    group1 group2 effsize    n1    n2 magnitude
## * <chr>  <chr>  <chr>    <dbl> <int> <int> <ord>    
## 1 weight F      M        -6.57    20    20 large

Notez que, lorsque la taille des groupes est égale et que les variances des groupes sont homogènes, le d de Cohen pour les tests t standard de Student et de Welch sont identiques.

Rapporter

Nous pourrions rapporter le résultat comme suit:

Le poids moyen dans le groupe des femmes était de 63,5 (SD = 2,03), alors que la moyenne dans le groupe des hommes était de 85,8 (SD = 4,3). Le test t de Welch a montré que la différence était statistiquement significative, t(26.9) = -20.8, p < 0.0001, d = 6.57 ; où, t(26.9) est une notation abrégée pour une statistique t de Welch qui a 26.9 degrés de liberté.

stat.test <- stat.test %>% add_xy_position(x = "group")
bxp + 
  stat_pvalue_manual(stat.test, tip.length = 0) +
  labs(subtitle = get_test_label(stat.test, detailed = TRUE))

Résumé

Cet article décrit la formule et les principes de base du test t non apparié ou du test t indépendant. Des exemples de codes R sont fournis pour vérifier les hypothèses, calculer le test et la taille de l’effet, interpréter et communiquer les résultats.

References

Cohen, J. 1998. Statistical Power Analysis for the Behavioral Sciences. 2nd ed. Hillsdale, NJ: Lawrence Erlbaum Associates.



Version: English

Test-T à Echantillon Unique (Prev Lesson)
(Next Lesson) Test T de Student
Back to Test T – L’ Essentiel : Définition, Formule et Calcul

No Comments

Give a comment

Want to post an issue with R? If yes, please make sure you have read this: How to Include Reproducible R Script Examples in Datanovia Comments