7 Analyse et Visualisation des Données
R dans VSCode, Programmation R dans VSCode
7.1 Introduction
Visual Studio Code (VSCode), combiné à R et aux extensions essentielles, offre un environnement puissant pour l’analyse et la visualisation des données. Dans ce chapitre, nous allons explorer comment utiliser efficacement VSCode pour effectuer des analyses de données et créer des visualisations avec R. Ceci inclut l’utilisation de packages R populaires comme tidyverse
pour le traitement des données et ggplot2
pour les visualisations, le tout dans le confort de VSCode.
7.2 Analyse des données
L’analyse de données dans VSCode est rationalisée par l’extension vscode-R
, qui fournit un support robuste pour travailler avec des scripts R et l’exploration interactive de données.
7.2.1 ÉTAPE 1. Chargement des données
Pour charger des données dans VSCode, vous pouvez utiliser le terminal R intégré à l’éditeur ou écrire et exécuter des scripts R directement à partir de l’éditeur.
Chargement de fichiers CSV : Utilisez la fonction
read.csv()
oureadr::read_csv()
pour charger des fichiers CSV. Vous pouvez mettre en évidence la ligne de code et appuyer surCtrl + Enter
(Windows/Linux) ouCmd + Enter
(Mac) pour l’exécuter dans le terminal R actif.# Créer un fichier de données de démonstration dir.create("data", showWarnings = FALSE, ) ::write_csv(iris, "data/iris.csv") readr# Charger les données <- readr::read_csv("data/iris.csv") data
Visualisation des données : Utilisez la fonction
View()
pour ouvrir les data frames dans le viewer interactif fourni par VSCode. Cela vous permet de trier, de filtrer et d’explorer les données directement dans l’éditeur.View(data)
7.2.2 ÉTAPE 2. Traitement des données avec tidyverse
Le package tidyverse
configure un excellent ensemble d’outils pour la manipulation et la transformation des données. Dans VSCode, vous pouvez utiliser ces outils pour nettoyer et préparer vos données pour l’analyse.
Filtrage et modification des données : Utilisez
dplyr
pour filtrer et modifier les data frames. Vous pouvez exécuter ces commandes de manière interactive pour voir la sortie immédiatement dans le terminal R.library(dplyr) <- data %>% filtered_data filter(Sepal.Length > 5) %>% mutate(Sepal.Ratio = Sepal.Length / Sepal.Width)
Commandes de tuyauterie : L’opérateur
%>%
(pipe
) vous permet d’enchaîner plusieurs opérations, ce qui est particulièrement utile pour rendre le code lisible et efficace. L’ÉTAPE utilise les pipes de façon transparente, ce qui permet une exécution interactive de chaque étape.
7.3 Visualisation de données avec ggplot2
La visualisation est un élément clé de l’analyse des données, et VSCode offre de multiples façons de créer, de visualiser et d’interagir avec les graphiques.
7.3.1 ÉTAPE 1. Créer des visualisations
Le package ggplot2
est l’outil de référence pour créer de belles visualisations informatives en R. Dans VSCode, vous pouvez utiliser ggplot2
pour générer des graphiques et des diagrammes et les visualiser de manière interactive.
Graphes de base : Créez un graphique de nuage de points pour visualiser les relations entre les variables.
library(ggplot2) ggplot(data, aes(x = Sepal.Length, y = Sepal.Width, color = Species)) + geom_point()
Visualisation interactive des graphiques : Avec le package httpgd activé, vos graphiques apparaîtront dans le viewer de VSCode. Cela vous permet de zoomer, d’exporter ou de copier des images directement à partir du panneau du viewer, ce qui rend le processus plus efficace.
install.packages("httpgd") ::hgd() httpgdoptions(device = httpgd::hgd)
7.3.2 ÉTAPE 2. Personnaliser les visualisations
La personnalisation est essentielle pour rendre vos graphiques informatifs et visuellement attrayants.
Ajout de titres et d’étiquettes : Personnalisez vos graphiques en ajoutant des titres, des étiquettes d’axes et en ajustant les thèmes.
ggplot(data, aes(x = Sepal.Length, y = Sepal.Width, color = Species)) + geom_point() + labs(title = "Sepal Length vs Width", x = "Sepal Length (cm)", y = "Sepal Width (cm)") + theme_minimal()
Faire un ggplot : Utilisez
facet_wrap()
oufacet_grid()
pour créer de petits multiples, ce qui peut aider à comprendre les modèles à travers différents sous-ensembles de données.ggplot(data, aes(x = Sepal.Length, y = Sepal.Width)) + geom_point() + facet_wrap(~ Species)
7.4 Outils de visualisation interactive
VSCode, dans l’extension vscode-R
, supporte les visualisations interactives qui améliorent l’exploration des données.
Plot Viewer : Le viewer de graphiques de VSCode vous permet d’interagir avec vos visualisations. En utilisant
httpgd
, vous pouvez visualiser des graphiques qui se mettent à jour automatiquement au fur et à mesure que vous changez votre code.Htmlwidgets et Shiny Apps : Les Htmlwidgets comme
plotly
ou les apps Shiny interactives peuvent également être rendus dans VSCode, ce qui vous permet d’explorer les données de manière interactive sans quitter l’éditeur.# Exemple en utilisant plotly library(plotly) <- ggplot(data, aes(x = Sepal.Length, y = Sepal.Width)) + p geom_point() ggplotly(p)
7.5 Conclusion
L’analyse et la visualisation des données sont au cœur de tout flux de travail en science des données, et VSCode, associé à R, fournit un environnement puissant pour ces deux aspects. En exploitant l’extension vscode-R
, httpgd
pour les graphiques interactifs, et les packages R populaires comme tidyverse
et ggplot2
, vous pouvez efficacement transformer les données et créer des visualisations significatives. Le terminal intégré et les viewers de graphiques dans VSCode simplifient l’ensemble du processus, permettant un flux continu de la manipulation des données à la visualisation.