Traitement des données avec dplyr

Transformer et résumer des données avec dplyr dans R

Apprendre à manipuler et à transformer efficacement des données en utilisant dplyr. Ce tutoriel couvre les fonctions clés telles que filter(), select(), mutate(), group_by(), et summarize() pour rationaliser vos tâches de manipulation de données dans R.

Programmation
Auteur·rice
Affiliation
Date de publication

10 février 2024

Modifié

29 avril 2025

Mots clés

dplyr tutorial, manipulation de données en R, tidyverse manipulation de données, R dplyr, transformation de données dans R

Introduction

dplyr est l’un des principaux packages de la tidyverse qui rend la manipulation des données dans R à la fois rapide et intuitive. Avec sa syntaxe simple et ses verbes puissants, dplyr vous permet de filtrer, sélectionner, muter, grouper et résumer vos données avec un minimum de code. Dans ce tutoriel, vous apprendrez à transformer et à résumer des ensembles de données à l’aide de dplyr, ainsi que des exemples pratiques pour illustrer ses capacités.



Fonctions de la clé dplyr

dplyr fournit un ensemble de fonctions - souvent appelées ‘verbes’ - qui constituent la base de la manipulation des données dans R. Voici quelques-unes des plus importantes:

  • filter(): Sous-ensemble de lignes basé sur des conditions.
  • select(): Choisir des colonnes en fonction de noms ou de modèles.
  • mutate(): Créer de nouvelles colonnes ou modifier des colonnes existantes.
  • group_by(): Regrouper les données pour des opérations de synthèse.
  • summarize(): Calculer des statistiques sommaires pour des données groupées.

Exemples pratiques

Exemple 1 : Filtrer et sélectionner des données

Utilisons l’ensemble de données intégré mtcars pour filtrer les voitures de plus de 6 cylindres et sélectionner uniquement les colonnes de kilomètres par gallon (mpg), number of cylinders (cyl), and horsepower (hp).

library(dplyr)

# Filtrez l'ensemble des données pour les voitures de plus de 6 cylindres et sélectionnez des colonnes spécifiques
filtered_data <- mtcars %>%
  filter(cyl > 6) %>%
  select(mpg, cyl, hp)

print(filtered_data)
                     mpg cyl  hp
Hornet Sportabout   18.7   8 175
Duster 360          14.3   8 245
Merc 450SE          16.4   8 180
Merc 450SL          17.3   8 180
Merc 450SLC         15.2   8 180
Cadillac Fleetwood  10.4   8 205
Lincoln Continental 10.4   8 215
Chrysler Imperial   14.7   8 230
Dodge Challenger    15.5   8 150
AMC Javelin         15.2   8 150
Camaro Z28          13.3   8 245
Pontiac Firebird    19.2   8 175
Ford Pantera L      15.8   8 264
Maserati Bora       15.0   8 335

Exemple 2 : Modifier et résumer des données

Dans cet exemple, nous ajouterons une nouvelle colonne qui calcule le rapport poids/puissance, puis nous résumerons les données en les regroupant en fonction du nombre de cylindres.

library(dplyr)

# Ajout d'une nouvelle colonne pour le rapport poids/puissance et récapitulation de la consommation moyenne par nombre de cylindres
summary_data <- mtcars %>%
  mutate(power_to_weight = hp / wt) %>%
  group_by(cyl) %>%
  summarize(
    avg_mpg = mean(mpg),
    avg_power_to_weight = mean(power_to_weight)
  )

print(summary_data)
# A tibble: 3 × 3
    cyl avg_mpg avg_power_to_weight
  <dbl>   <dbl>               <dbl>
1     4    26.7                37.9
2     6    19.7                39.9
3     8    15.1                53.9

Exemple 3 : enchaînement de plusieurs dplyr verbes

Cet exemple montre comment enchaîner plusieurs opérations dplyr pour effectuer une transformation complète des données.

library(dplyr)

# Enchaîner plusieurs opérations : filtrer, sélectionner et modifier
transformed_data <- mtcars %>%
  filter(mpg > 20) %>%
  select(mpg, cyl, disp, hp) %>%
  mutate(efficiency = mpg / disp)

print(transformed_data)
                mpg cyl  disp  hp efficiency
Mazda RX4      21.0   6 160.0 110 0.13125000
Mazda RX4 Wag  21.0   6 160.0 110 0.13125000
Datsun 710     22.8   4 108.0  93 0.21111111
Hornet 4 Drive 21.4   6 258.0 110 0.08294574
Merc 240D      24.4   4 146.7  62 0.16632584
Merc 230       22.8   4 140.8  95 0.16193182
Fiat 128       32.4   4  78.7  66 0.41168996
Honda Civic    30.4   4  75.7  52 0.40158520
Toyota Corolla 33.9   4  71.1  65 0.47679325
Toyota Corona  21.5   4 120.1  97 0.17901749
Fiat X1-9      27.3   4  79.0  66 0.34556962
Porsche 914-2  26.0   4 120.3  91 0.21612635
Lotus Europa   30.4   4  95.1 113 0.31966351
Volvo 142E     21.4   4 121.0 109 0.17685950

Bonnes pratiques

  • Utiliser l’opérateur de canalisation %>%:
    Cet opérateur permet d’enchaîner plusieurs opérations, ce qui rend le code plus lisible.

  • Écriture d’un code clair et descriptif:
    Utiliser des noms de variables significatifs et ajouter des commentaires si nécessaire.

  • Tester de manière incrémentale:
    Construisez vos transformations de données étape par étape et vérifiez les résultats intermédiaires pour vous assurer que votre code fonctionne comme prévu.

Conclusion

dplyr simplifie le processus de traitement des données dans R, vous permettant de transformer et de résumer des ensembles de données avec un code minimal et intuitif. En maîtrisant les fonctions de base - filtre, sélection, mutation, group_by et résumé - vous pouvez rationaliser vos flux de travail de préparation des données et préparer efficacement vos données en vue d’une analyse ou d’une visualisation plus poussée.

Plus d’informations

Bon codage et bonne transformation de vos données avec dplyr!

Explorer d’autres articles

Note

Voici d’autres articles de la même catégorie pour vous aider à approfondir le sujet.

Retour au sommet

Réutilisation

Citation

BibTeX
@online{kassambara2024,
  author = {Kassambara, Alboukadel},
  title = {Traitement des données avec dplyr},
  date = {2024-02-10},
  url = {https://www.datanovia.com/fr/learn/programming/r/data-science/data-wrangling-with-dplyr.html},
  langid = {fr}
}
Veuillez citer ce travail comme suit :
Kassambara, Alboukadel. 2024. “Traitement des données avec dplyr.” February 10, 2024. https://www.datanovia.com/fr/learn/programming/r/data-science/data-wrangling-with-dplyr.html.

Vous avez aimé cette page ?

Nous serions ravis que vous le partagiez avec vos amis ou collègues. Faites passer le savoir !

Restez connecté avec nous pour ne rien manquer des futurs articles en nous suivant :