7  Análisis y visualización de datos

Palabras clave

R en VSCode, Programación R en VSCode

7.1 Introducción

Visual Studio Code (VSCode), combinado con R y las extensiones esenciales, ofrece un potente entorno para el análisis y la visualización de datos. En este capítulo, exploraremos cómo utilizar eficazmente VSCode para realizar análisis de datos y crear visualizaciones con R. Esto incluye el uso de paquetes populares de R como tidyverse para la gestión de datos y ggplot2 para visualizaciones, todo dentro de la comodidad de VSCode.

Análisis y visualización de datos con R en VSCode


7.2 Análisis de datos

El análisis de datos en VSCode se agiliza gracias a la extensión vscode-R, que proporciona un sólido soporte para trabajar con scripts R y la exploración interactiva de datos.

7.2.1 PASO 1. Carga de datos

Para cargar datos en VSCode, puede utilizar el terminal R integrado en el editor o escribir y ejecutar scripts R directamente desde el editor.

  • Carga de archivos CSV: Utilice la función read.csv() o readr::read_csv() para cargar archivos CSV. Puede resaltar la línea de código y pulsar Ctrl + Intro (Windows/Linux) o Cmd + Intro (Mac) para ejecutarla en el terminal R activo.

    # Crear un archivo de datos de demostración
    dir.create("data", showWarnings = FALSE, )
    readr::write_csv(iris, "data/iris.csv")
    # Cargar los datos
    data <- readr::read_csv("data/iris.csv")
  • Visualización de datos: Utilice la función View() para abrir marcos de datos en el visor interactivo proporcionado por VSCode. Esto le permite ordenar, filtrar y explorar los datos directamente en el editor.

    View(data)

7.2.2 PASO 2. Manejo de datos con tidyverse

El paquete tidyverse ofrece un excelente conjunto de herramientas para la manipulación y transformación de datos. En VSCode, puede aprovechar estas herramientas para limpiar y preparar su conjunto de datos para el análisis.

  • Filtrado y mutación de datos: Utilice dplyr para filtrar y mutar marcos de datos. Puede ejecutar estos comandos de forma interactiva para ver la salida inmediatamente en el terminal de R.

    library(dplyr)
    filtered_data <- data %>%
      filter(Sepal.Length > 5) %>%
      mutate(Sepal.Ratio = Sepal.Length / Sepal.Width)
  • Comandos Piping: El operador %>% (pipe) permite encadenar múltiples operaciones, lo que resulta especialmente útil para hacer el código más legible y eficiente. VSCode soporta el uso de tuberías sin problemas, lo que permite la ejecución interactiva de cada paso.

7.3 Visualización de datos con ggplot2

La visualización es un componente clave del análisis de datos, y VSCode proporciona múltiples formas de crear, ver e interactuar con gráficos.

7.3.1 PASO 1. Creación de visualizaciones

El paquete ggplot2 es la herramienta ideal para crear visualizaciones atractivas e informativas en R. En VSCode, puede utilizar ggplot2 para generar gráficos y parcelas y verlos de forma interactiva.

  • Trazado básico: Crear un gráfico de dispersión para visualizar las relaciones entre variables.

    library(ggplot2)
    ggplot(data, aes(x = Sepal.Length, y = Sepal.Width, color = Species)) +
      geom_point()
  • Visualización interactiva de gráficos: Con el paquete httpgd activado, sus gráficos aparecerán en el visor de gráficos de VSCode. Esto le permite hacer zoom, exportar o copiar imágenes directamente desde el panel de visualización, haciendo que el proceso sea más eficiente.

    install.packages("httpgd")
    httpgd::hgd()
    options(device = httpgd::hgd)

7.3.2 PASO 2. Personalización de visuales

La personalización es clave para que sus gráficos sean informativos y visualmente atractivos.

  • Añadir títulos y etiquetas: Personalice sus gráficos añadiendo títulos, etiquetas en los ejes y ajustando los temas.

    ggplot(data, aes(x = Sepal.Length, y = Sepal.Width, color = Species)) +
      geom_point() +
      labs(title = "Sepal Length vs Width",
           x = "Sepal Length (cm)",
           y = "Sepal Width (cm)") +
      theme_minimal()
  • Enfoque: Utilice facet_wrap() o facet_grid() para crear pequeños múltiplos, que pueden ayudar a comprender patrones en diferentes subconjuntos de datos.

    ggplot(data, aes(x = Sepal.Length, y = Sepal.Width)) +
      geom_point() +
      facet_wrap(~ Species)

7.4 Herramientas de visualización interactiva

VSCode, a través de la extensión vscode-R, soporta visualizaciones interactivas que mejoran la exploración de datos.

  • Visor de gráficos: El visor de gráficos de VSCode te permite interactuar con tus visualizaciones. Utilizando httpgd, puede ver gráficos que se actualizan automáticamente a medida que realiza cambios en su código.

  • Htmlwidgets y aplicaciones Shiny: Htmlwidgets como plotly o aplicaciones interactivas Shiny también se pueden representar dentro de VSCode, lo que le permite explorar los datos de forma interactiva sin salir del editor.

    # Ejemplo de uso de plotly
    library(plotly)
    p <- ggplot(data, aes(x = Sepal.Length, y = Sepal.Width)) +
      geom_point()
    ggplotly(p)

7.5 Conclusión

El análisis y la visualización de datos son fundamentales para cualquier flujo de trabajo de la ciencia de datos, y VSCode, junto con R, proporciona un potente entorno para ambos. Aprovechando la extensión vscode-R, httpgd para gráficos interactivos, y paquetes populares de R como tidyverse y ggplot2, puede transformar datos de forma eficiente y crear visualizaciones significativas. El terminal integrado y los visores de gráficos de VSCode agilizan todo el proceso, permitiendo un flujo sin fisuras desde la manipulación de los datos hasta la visualización.