omar gonzáles díaz

Data Analyst and R Programmer







Google Analytics y R

Parte I: Automatización de la extracción de datos



Decidí escribir este artículo para mostrar el gran valor que se esconde en los datos. Si tienes una página web es probable que estés recolectando datos sobre los usuarios que ingresan a tu web. Pero, ¿estás usando estos datos para tomar decisiones que impacten en tu negocio?

En estos días, estamos nadando en mares de datos. Solo si sabes como usarlos podrás mantenerte a flote 😄. El primer paso es revisar regularmente los reportes estándar en tu herramienta de web analytics favorita: Google Analytics 😉

Pero para ser competitivo necesitas algo más. Todos hablan acerca de la recolección de datos. Pero solo unos pocos te dirán que hacer con esos datos una vez recolectados. Por mi parte, trataré de describir este proceso y darte algunas buenas ideas sobre como lidiar con los datos de Google Analytics utilizando R.

En este post compartiré mi experiencia en el uso de GA y R. Espero que les sea de utilidad, de interés, por ratos divertido, y, principalmente, que les ahorre tiempo 🕖.

En las próximas semanas escribiré un poco sobre visualización de datos de GA con R, así como limpieza y agrupación de fuentes (Adwords, Email, Facebook, etc), y también sobre lo que podemos hacer para evitar el sampling.



Excel-is-the-worst

Excel-is-the-worst



Resumen

  1. Instalar R
  2. Instalar RStudio
  3. Instalar los paquetes: googleAnalyticsR y ggplot2.
  4. Aplicar el R Script de este post.
  5. Autorizar a googleAnalyticsR para que acceda a sus datos
  6. Encuentra el Id de la Vista (viewID) de Google Analytics de la vista a analizar.
  7. Define el rango de fechas dinámica o estática
  8. Corre el código de “Páginas vistas” (paginas_vistas)
  9. Revisa la data con View(paginas_vistas).
  10. Corre el código para “Sesiones por día” (sesiones_por_dia).
  11. Mira el código para sesiones_por_dia.
  12. Crea un gráfico de líneas con ggplot2
  13. Explorar más dimensiones y métricas con Google Analytics - Query Builder.



  1. Descargar e instalar R

R es un lenguaje de programación enfocado a la estadística y visualización de datos, entre otras cosas. Descargue R para Windows, Mac y Linux aquí:

https://cran.r-project.org/

  1. Descarga e instala R Studio

RStudio es un ambiente de desarrollo interactivo. Es la interface de usuario que te permitirá trabajar de una manera más eficiente desarrollando tus scripts.

Descárgalo aquí:

https://www.rstudio.com/products/rstudio/download/

  1. Instalar los paquetes: googleAnalyticsR y ggplot2.

Pueden instalar ambas librerías con los siguientes comandos:

install.packages("ggplot2")

install.packages("googleAnalyticsR")

  1. Aplica (corre) este script:

Simplemente copia desde library(googleAnalyticsR) hasta labs(title = "Sesiones por día").

library(googleAnalyticsR)
library(ggplot2)

#Autoriza  Google Analytics R- esto abrira una ventana
#en tu navegador web. Deberás loggearte con el email 
#con el que ingresas normalmente a Google Analytics.

ga_auth()

#Utiliza el Google Analytics Management API para ver
#una lista de las cuentas de Google Analytics a las que 
#tienes acceso.

my_accounts <- google_analytics_account_list()
View(my_accounts)


#Usa la variable my_accounts para encontrar el viewId (Id de la vista)
#Asegúrate de reemplazar el valor de my_id con el ID correcto.


my_id <- 91285066

#Configura variables para una selección de fechas dinámica
start_date <- "60daysAgo"
end_date <- "yesterday"

#Page View Query
paginas_vistas <- google_analytics_4(my_id, 
                          date_range = c("2016-12-10", "2017-02-07"),
                          metrics = c("pageviews"),
                          dimensions = c("pagePath"))

#Session Query - Uses start_date and end_date
sesiones_por_dia <- google_analytics_4(my_id, 
                          date_range = c(start_date, end_date),
                          metrics = c("sessions"),
                          dimensions = c("date"))

#graph sessions by date
ggplot(data=sesiones_por_dia, aes(x=date, y=sessions)) +
  geom_line(stat="identity") +
  labs(title = "Sesiones por día")



  1. Autorizar a googleAnalyticsR para que acceda a sus datos

Una vez que ya tenemos el script en RStudio, procedemos a ejecutarlo.

  • Ejecutar la función ga_auth()

Esta función va a abrir el navegador que tengas por defecto, y te va a pedir que le des permiso a la librería para acceder a tus datos de GA.

Elige con qué email vas a dar acceso a la librería googleAnalyticsR. El email debe contar con acceso a la cuenta de Google Analytics que se quiere analizar.