Test T - L' Essentiel : Définition, Formule et Calcul

Hypothèses du Test T à Echantillon Unique

Cet article décrit les hypothèses du test t à échantillon unique et fournit des exemples de code R pour vérifier si les hypothèses sont respectées avant de calculer le test t.



Sommaire:

Livre Apparenté

Pratique des Statistiques dans R II - Comparaison de Groupes: Variables Numériques

Hypothèses

Le test t pour échantillon unique suppose les caractéristiques suivantes au sujet des données:

  • Aucune valeur aberrante significative dans les données
  • Normalité. les données devraient être distribuées approximativement normalement

Dans cette section, nous effectuerons quelques tests préliminaires pour vérifier si ces hypothèses sont respectées.

Vérifier les hypothèses du test t à échantillon unique dans R

Prérequis

Assurez-vous d’avoir installé les paquets R suivants:

  • ggpubr pour créer facilement des graphiques prêts à la publication
  • rstatix contient des fonctions R facilitant les analyses statistiques.
  • datarium: contient les jeux de données requis pour ce chapitre.

Commencez par charger les packages requis suivants:

library(ggpubr)
library(rstatix)

Données de démonstration

Jeu de données de démonstration : mice [package datarium]. Contient le poids de 10 souris:

# Charger et inspecter les données
data(mice, package = "datarium")
head(mice, 3)
## # A tibble: 3 x 2
##   name  weight
##   <chr>  <dbl>
## 1 M_1     18.9
## 2 M_2     19.5
## 3 M_3     23.1

Identifier les valeurs aberrantes

Les valeurs aberrantes peuvent être facilement identifiées à l’aide des méthodes boxplot, implémentées dans la fonction R identify_outliers() [paquet rstatix].

mice %>% identify_outliers(weight)
## [1] name       weight     is.outlier is.extreme
## <0 rows> (or 0-length row.names)

Il n’y avait pas de valeurs extrêmes aberrantes.

Notez que, dans le cas où vous avez des valeurs extrêmes aberrantes, cela peut être dû à : 1) erreurs de saisie de données, erreurs de mesure ou valeurs inhabituelles.

Dans ce cas, vous pourriez envisager d’exécuter le test de Wilcoxon non paramétrique.

Vérifier l’hypothèse de normalité

L’hypothèse de normalité peut être vérifiée en calculant le test de Shapiro-Wilk. Si les données sont normalement distribuées, la p-value doit être supérieure à 0,05.

mice %>% shapiro_test(weight)
## # A tibble: 1 x 3
##   variable statistic     p
##   <chr>        <dbl> <dbl>
## 1 weight       0.923 0.382

Selon le résultat, la p-value est supérieure au niveau de significativité 0,05 indiquant que la distribution des données n’est pas significativement différente de la distribution normale. En d’autres termes, nous pouvons supposer que la normalité.

Vous pouvez également créer un QQ plot des données de weight. Le graphique QQ plot dessine la corrélation entre une donnée définie et la distribution normale.

ggqqplot(mice, x = "weight")

Tous les points se situent approximativement le long de la ligne de référence (45 degrés), pour chaque groupe. Nous pouvons donc supposer la normalité des données.

Notez que, si la taille de votre échantillon est supérieure à 50, le graphique de normalité QQ plot est préféré parce qu’avec des échantillons de plus grande taille, le test de Shapiro-Wilk devient très sensible même à un écart mineur par rapport à la distribution normale.

Si les données ne sont pas normalement distribuées, il est recommandé d’utiliser un test non paramétrique tel que le test de Wilcoxon à échantillon unique. Ce test est semblable au test t pour échantillon unique, mais il est axé sur la médiane plutôt que sur la moyenne.

Article apparenté

Test t dans R



Version: English

Hypothèses du Test T (Prev Lesson)
(Next Lesson) Hypothèses du Test T indépendant
Back to Test T – L’ Essentiel : Définition, Formule et Calcul

No Comments

Give a comment

Want to post an issue with R? If yes, please make sure you have read this: How to Include Reproducible R Script Examples in Datanovia Comments