Transformer et résumer des données avec dplyr dans R
Apprendre à manipuler et à transformer efficacement des données en utilisant dplyr. Ce tutoriel couvre les fonctions clés telles que filter(), select(), mutate(), group_by(), et summarize() pour rationaliser vos tâches de manipulation de données dans R.
dplyr est l’un des principaux packages de la tidyverse qui rend la manipulation des données dans R à la fois rapide et intuitive. Avec sa syntaxe simple et ses verbes puissants, dplyr vous permet de filtrer, sélectionner, muter, grouper et résumer vos données avec un minimum de code. Dans ce tutoriel, vous apprendrez à transformer et à résumer des ensembles de données à l’aide de dplyr, ainsi que des exemples pratiques pour illustrer ses capacités.
Fonctions de la clé dplyr
dplyr fournit un ensemble de fonctions - souvent appelées ‘verbes’ - qui constituent la base de la manipulation des données dans R. Voici quelques-unes des plus importantes:
filter(): Sous-ensemble de lignes basé sur des conditions.
select(): Choisir des colonnes en fonction de noms ou de modèles.
mutate(): Créer de nouvelles colonnes ou modifier des colonnes existantes.
group_by(): Regrouper les données pour des opérations de synthèse.
summarize(): Calculer des statistiques sommaires pour des données groupées.
Exemples pratiques
Exemple 1 : Filtrer et sélectionner des données
Utilisons l’ensemble de données intégré mtcars pour filtrer les voitures de plus de 6 cylindres et sélectionner uniquement les colonnes de kilomètres par gallon (mpg), number of cylinders (cyl), and horsepower (hp).
library(dplyr)# Filtrez l'ensemble des données pour les voitures de plus de 6 cylindres et sélectionnez des colonnes spécifiquesfiltered_data <- mtcars %>%filter(cyl >6) %>%select(mpg, cyl, hp)print(filtered_data)
Dans cet exemple, nous ajouterons une nouvelle colonne qui calcule le rapport poids/puissance, puis nous résumerons les données en les regroupant en fonction du nombre de cylindres.
library(dplyr)# Ajout d'une nouvelle colonne pour le rapport poids/puissance et récapitulation de la consommation moyenne par nombre de cylindressummary_data <- mtcars %>%mutate(power_to_weight = hp / wt) %>%group_by(cyl) %>%summarize(avg_mpg =mean(mpg),avg_power_to_weight =mean(power_to_weight) )print(summary_data)
Utiliser l’opérateur de canalisation %>%:
Cet opérateur permet d’enchaîner plusieurs opérations, ce qui rend le code plus lisible.
Écriture d’un code clair et descriptif:
Utiliser des noms de variables significatifs et ajouter des commentaires si nécessaire.
Tester de manière incrémentale:
Construisez vos transformations de données étape par étape et vérifiez les résultats intermédiaires pour vous assurer que votre code fonctionne comme prévu.
Conclusion
dplyr simplifie le processus de traitement des données dans R, vous permettant de transformer et de résumer des ensembles de données avec un code minimal et intuitif. En maîtrisant les fonctions de base - filtre, sélection, mutation, group_by et résumé - vous pouvez rationaliser vos flux de travail de préparation des données et préparer efficacement vos données en vue d’une analyse ou d’une visualisation plus poussée.