Queries en BigQuery y DataStudio (Google Cloud)

Compartir:

Introducción

Siguiendo con la serie de entradas para desarrollar un prototipo de IoT para Salud, una vez tenemos terminada la conexión Pub/Sub con BigQuery podemos empezar a almacenar y analizar datos históricos.

Lo primero que debemos hacer tras almacenar todos nuestros datos es saber cuales son esos problemas a los que tenemos que dar respuesta y el siguiente paso es tener claros los datos que necesitamos para responder a estas preguntas. En nuestro caso, al tratarse de un prototipo de IoT para salud los datos los estamos generando nosotros mismos, más concretamente estamos recogiendo estos datos desde los sensores de nuestros pacientes. 

BigQuery es una herramienta alojada en la nube que nos permite realizar consultas a bases de datos muy grandes (grandes volúmenes de datos). Permite hacer consultas mediante SQL. SQL es un Lenguaje de Consulta Estructurado, es un tipo de lenguaje de programación que ayuda a solucionar problemas específicos o relacionados con la definición, manipulación e integridad de la información representada por los datos que se almacenan en las bases de datos. 

Un punto importante es que se puede acceder mediante una UI web, mediante terminal, también mediante librerías para multitud de lenguajes, como puede ser Python o Java. 

Puede procesar alrededor de 10.000 filas por segundo y también permite cruzar información de diferentes fuentes de datos. 

El siguiente paso es el tratamiento de los datos: 

  1. Inserción de datos

  2. Transformación 

  3. Almacenamiento 

  4. Análisis de datos 

  5. Visualización (dashboard)

Realizar queries en bigQuery

Antes de comenzar con nuestras consultas, tenemos que tener creado un bucket, así como una tabla donde se irán insertando los datos de manera automática.

Una vez creado nuestro bucket, así como la tabla donde se van insertando los datos de manera automática, ya podemos empezar a buscar información en nuestras tablas. Es importante tener en cuenta que se utiliza el dialecto SQL estándar.  

Para ello, tenemos que irnos al menú de la hamburguesa y en la sección "BigData" seleccionar "BigQuery", donde podremos observar la siguiente pantalla: 

En la parte izquierda tenemos disponibles nuestros proyectos con las carpetas que tenemos dentro de cada uno. Por ejemplo, aunque tengamos varios proyectos con tablas distintas, en este caso “iot-dht11-284607” sería el proyecto que vamos a usar, “data_temperatura” sería el bucket y “iot_data” es la tabla donde se almacenan nuestros datos.  Una vez hayamos seleccionado una tabla, se muestra lo siguiente: El primer paso para realizar una consulta es pinchar en el botón de “Consultar tabla”, tal y como se muestra a continuación: En el “Editor de consultas” aparecerá lo siguiente: Para facilitar el trabajo, a la hora de seleccionar cualquier campo que queramos buscar, podemos pinchar directamente sobre él en el “Esquema” de la tabla y se añadirá automáticamente a nuestra consulta. A la hora de abrir peticiones disponemos de un pequeño validador que nos va indicando si nuestra consulta va a ser ejecutada o no y el error que estás cometiendo para que esta no se ejecute. También te va a indicar los datos que va a procesar la petición, lo que es muy importante porque si tenemos una BBDD grande se puede ir controlando lo que vamos a procesar. Por lo tanto, una vez tenemos nuestra consulta lista, tenemos que pinchar sobre el botón de “Ejecutar”. A continuación se muestra un ejemplo de consulta realizado sobre una tabla de ejemplo proporcionada desde la propia plataforma de Google Cloud Platform. Se mostrarán automáticamente los resultados de la consulta como se muestra en la siguiente imagen.  En el caso de no existir ningún resultado que coincida con la búsqueda se mostrará un mensaje informativo. La sintaxis de SQL de Google es una sintaxis muy sencilla. A la hora de realizar cualquier consulta podemos buscar la sintaxis en la ayuda de Google utilizando el siguiente link:

https://cloud.google.com/bigquery/docs/reference/standard-sql/query-syntax

Visualización de datos con data studio

Una vez obtenemos los resultados que queremos de nuestra petición podemos guardar estos datos en una tabla. Hasta el momento no estamos guardando nada, solo hemos hecho peticiones. Además, es importante tener en cuenta que el almacenamiento tiene un coste dependiendo del número de datos filtrados en cada una de nuestras búsquedas. Podemos guardar los datos en el formato que queramos, como puede ser CSV, JSON, tabla de BigQuery, hojas de cálculo de Google o copiar en el portapapeles, o bien analizar estos datos directamente en DataStudio. Otra opción que nos ofrece Google Cloud es DataStudio, una herramienta que nos visualizará automáticamente los datos. A la hora de realizar consultas, estamos obteniendo un historial de datos, por lo que DataStudio nos proporciona la posibilidad de elegir el gráfico que deseamos utilizar para mostrar estos datos. Una vez tengamos todos los datos que hemos seleccionado en DataStudio, accedemos al siguiente explorador, desde donde podremos trabajar con nuestros datos para mostrarlos y analizarlos como queramos. 

Como podemos observar, en la parte derecha tenemos la opción de elegir el formato de gráfico que deseamos utilizar según los datos que estamos estudiando. En el botón de “Añadir un gráfico”, que aparece en la parte de arriba a la izquierda podemos introducir más gráficos para mostrar en la misma pantalla, cada uno de ellos con el formato que queramos.

Contributors:

Compartir: