Cet article décrit les hypothèses du test t apparié et fournit des exemples de code R pour vérifier si les hypothèses sont respectées avant de calculer le test t. On appelle aussi cela:
- hypothèses du test t à échantillons appariés,
- hypothèses pour test t à échantillons appariées et
- hypothèses du test t dépendant
La procédure de l’analyse du test t apparié est la suivante:
- Calculer la différence (\(d\)) entre chaque paire de valeur
- Calculer la moyenne (\(m\)) et l’écart-type (\(s\)) de \(d\)
- Comparer la différence moyenne à 0. S’il y a une différence significative entre les deux paires d’échantillons, alors la moyenne de d (\(m\)) devrait être loin de 0.
Sommaire:
Livre Apparenté
Pratique des Statistiques dans R II - Comparaison de Groupes: Variables NumériquesHypothèses
Le test t des échantillons appariés suppose les caractéristiques suivantes au sujet des données:
- les deux groupes sont appariés.
- Aucune valeur aberrante significative dans la différence entre les deux groupes appariés
- Normalité. la différence des paires suit une distribution normale.
Dans cette section, nous effectuerons quelques tests préliminaires pour vérifier si ces hypothèses sont respectées.
Vérifier les hypothèses du test t apparié dans R
Prérequis
Assurez-vous d’avoir installé les paquets R suivants:
tidyverse
pour la manipulation et la visualisation des donnéesggpubr
pour créer facilement des graphiques prêts à la publicationrstatix
contient des fonctions R facilitant les analyses statistiques.datarium
: contient les jeux de données requis pour ce chapitre.
Commencez par charger les packages requis suivants:
library(tidyverse)
library(ggpubr)
library(rstatix)
Données de démonstration
Ici, nous utiliserons un jeu de données de démonstration mice2
[package datarium], qui contient le poids de 10 souris avant et après le traitement.
# Format large
data("mice2", package = "datarium")
head(mice2, 3)
## id before after
## 1 1 187 430
## 2 2 194 404
## 3 3 232 406
# Transformez en données longues :
# rassembler les valeurs de `before` (avant) et `after` (après) dans la même colonne
mice2.long <- mice2 %>%
gather(key = "group", value = "weight", before, after)
head(mice2.long, 3)
## id group weight
## 1 1 before 187
## 2 2 before 194
## 3 3 before 232
Tout d’abord, commencez par calculer la différence entre les groupes:
mice2 <- mice2 %>% mutate(differences = before - after)
head(mice2, 3)
## id before after differences
## 1 1 187 430 -242
## 2 2 194 404 -210
## 3 3 232 406 -174
Identifier les valeurs aberrantes
Les valeurs aberrantes peuvent être facilement identifiées à l’aide des méthodes boxplot, implémentées dans la fonction R identify_outliers()
[paquet rstatix].
mice2 %>% identify_outliers(differences)
## [1] id before after differences is.outlier is.extreme
## <0 rows> (or 0-length row.names)
Il n’y avait pas de valeurs extrêmes aberrantes.
Notez que, dans le cas où vous avez des valeurs extrêmes aberrantes, cela peut être dû à : 1) erreurs de saisie de données, erreurs de mesure ou valeurs inhabituelles.
Vous pouvez quand même inclure la valeur aberrante dans l’analyse si vous ne croyez pas que le résultat sera affecté de façon substantielle. Cela peut être évalué en comparant le résultat du test t avec et sans la valeur aberrante.
Il est également possible de conserver les valeurs aberrantes dans les données et d’effectuer un test Wilcoxon ou un test t robuste en utilisant le progiciel WRS2.
Vérifier la normalité par groupes
L’hypothèse de normalité peut être vérifiée en calculant le test de Shapiro-Wilk pour chaque groupe. Si les données sont normalement distribuées, la p-value doit être supérieure à 0,05.
mice2 %>% shapiro_test(differences)
## # A tibble: 1 x 3
## variable statistic p
## <chr> <dbl> <dbl>
## 1 differences 0.968 0.867
D’après le résultat, les deux p-values sont supérieures au seuil de significativité 0,05, ce qui indique que la distribution des données n’est pas significativement différente de la distribution normale. En d’autres termes, nous pouvons supposer que la normalité.
Vous pouvez également créer des QQ plots pour chaque groupe. Le graphique QQ plot dessine la corrélation entre une donnée définie et la distribution normale.
ggqqplot(mice2, "differences")
Tous les points se situent approximativement le long de la ligne de référence (45 degrés), pour chaque groupe. Nous pouvons donc supposer la normalité des données.
Notez que, si la taille de votre échantillon est supérieure à 50, le graphique de normalité QQ plot est préféré parce qu’avec des échantillons de plus grande taille, le test de Shapiro-Wilk devient très sensible même à un écart mineur par rapport à la distribution normale.
Dans le cas où les données ne sont pas normalement distribuées, il est recommandé d’utiliser le test de Wilcoxon non paramétrique.
Article apparenté
Version: English
No Comments