Realizar un gráfico no es tarea sencilla. Existen ciertas ideas a tener en cuenta antes de ponerse manos a la obra. Aquí te contamos en 5 pasos cada una de ellas. Y por supuesto, si te surge cualquier duda, escríbenos e intentaremos ir resolviéndolas en próximas entradas. ¡Vamos a ello!
Paso 1: Entender el contexto
Si queremos hacer una visualización de datos lo primero y más importante es saber de dónde proceden. Cómo ha sido obtenida la muestra o cuáles son las variables de las disponemos, son algunas de las preguntas clave que deberemos respondernos. Saber la periodicidad de esos datos, cuál es la fuente o las fuentes de información y por supuesto, entender perfectamente el contexto o materia al que se refieren los mismos. Esto quiere decir, que en caso de tener dudas en cualquiera de estos puntos, es mejor consultar o informarse antes de seguir adelante.
Paso 2: Elegir la herramienta
Para poder realizar un gráfico necesitamos dos ingredientes fundamentales: 1) los datos y 2) la herramienta de visualización. Lo más sencillo es elegir el mismo software tanto para la preparación de los datos como para la visualización. Si sabes programar, la respuesta es sencilla: R, Python o Javascript. Cada uno de ellos contiene librerías o paquetes especializados con una amplia variedad de geometrías a elegir. Esta vía es la más recomendable, pero si no sabes programar, o bien no tienes tiempo de ponerte a ello, existen otras soluciones: flourish, google data studio, tableau, o rawgraphs, entre otros, son opciones muy intuitivas. Éstas, te permiten subir los datos desde un fichero o URL, elegir el tipo de gráfico que mejor se adecúe, así como modificar su diseño, y finalmente exportar el mismo en pdf, png o jpeg.
Paso 3: Preparar los datos
Una vez decidido qué programa utilizar, debemos preparar los datos de entrada. Según el estado de nuestros datos, este punto nos llevará más tiempo que los demás. En Data Science a esta fase la solemos llamar limpieza de datos. Esta etapa consiste en detectar valores atípicos o outliers, comprobar los formatos de las variables tipo fecha o string y detectar valores desconocidos, entre otros. Una vez que los datos están “limpios”, nos preguntaremos ¿qué variables quiero representar?¿quiero mostrar todos o solo una parte de los eventos? Una vez que obtenemos el dataset final a representar, lo transformaríamos al formato adecuado de entrada según requiera la herramienta que hayamos elegido.
Paso 4: Mapear la estética
Este es uno de los puntos clave de la visualización. Básicamente consiste en definir dónde irán colocadas las variables del dataset dentro del gráfico. Si las representaremos en los ejes, o a través de los colores, la forma, las facetas, etc. Tal vez este punto deba hacerse en conjunto con el siguiente, la elección de la geometría, pero de cualquier forma va a ser decisivo en cuanto a que el resultado final se entienda o no. En general, dependerá del tipo de variables con el que trabajemos. Por ejemplo, en caso de variables temporales, se suelen representar en el eje X, o en una animación, se dejarían como variables dinámicas. Sin embargo, no es posible dar una regla general, ya que depende totalmente del contexto y de lo que se pretenda conseguir.
Paso 5: Elegir la geometría adecuada
Existen diversas opciones para elegir la geometría adecuada. En general, la elección del tipo de gráfico se hace un función del objetivo del análisis. Por ejemplo, si queremos comparar dos magnitudes lo habitual es utilizar diagramas de barras pero también existen otras alternativas como el Lolipop o el gráfico de coordenadas paralelas. Además, en visualización de datos no debe dejarlo de lado la originalidad. En una de las entradas anteriores de este blog os contábamos 4 alternativas al tradicional gráfico de barras.
Aún así, una buena referencia es la clasificación del siguiente post del Financial Times, donde dan las pautas generales para la elección del gráfico en función del objetivo del estudio.
No te preocupéis si este punto os parece más complicado porque en futuras entradas hablaremos de cómo elegir el tipo de gráfico más en detalle. ¡No te lo pierdas!