ECDF (pour Empirical cumulative distribution function ou Fonction de distribution cumulative empirique en français) offre une visualisation alternative de la distribution. Il indique, pour un nombre donné, le pourcentage de personnes qui se situent en dessous de ce seuil.
Cet article décrit comment créer un ECDF dans R en utilisant la fonction stat_ecdf()
dans le package ggplot2.
Sommaire:
Livre Apparenté
GGPLOT2 - L’Essentiel pour une Visualisation Magnifique des Données dans RPréparation des données
Créer des données (wdata
) contenant les poids par sexe (M pour homme ; F pour femme):
set.seed(1234)
wdata = data.frame(
sex = factor(rep(c("F", "M"), each=200)),
weight = c(rnorm(200, 55), rnorm(200, 58))
)
# head(wdata, 4)
Chargement des packages R requis
Chargez le package ggplot2 et mettez le thème par défaut à theme_minimal()
avec la légende en haut du graphique:
library(ggplot2)
theme_set(
theme_minimal() +
theme(legend.position = "top")
)
Créer des ECDF plots
# Une autre option pour geom = "point"
ggplot(wdata, aes(x = weight)) +
stat_ecdf(aes(color = sex,linetype = sex),
geom = "step", size = 1.5) +
scale_color_manual(values = c("#00AFBB", "#E7B800"))+
labs(y = "f(weight)")
Dans les graphiques ci-dessus, vous pouvez voir que:
- environ 25 % des femmes mesurent moins de 50 pouces
- environ 50% des hommes mesurent moins de 58 pouces
Conclusion
Cet article montre comment créer un ECDF plot à l’aide du package ggplot2 R.
Version: English
No Comments