visualització de dades

Visualizaciones de datos: ciencia, subjetividad y política

En un contexto donde cada vez el contenido visual gana más peso y se viraliza con mucha más facilidad que el textual, es vital tener una visión crítica y saber discernir y entender si una información en formato gráfico es veraz.

En los últimos años, las visualizaciones de datos han vivido un boom, y en la actualidad nos las podemos encontrar por todas partes. La visualización de datos es una disciplina que transforma grandes cantidades de datos en una representación visual. Un recurso especialmente útil cuando tenemos un volumen muy grande de información, y queremos visualizarlo de forma gráfica e interactiva para así poder analizar o comparar los datos asociados.

Las infografías y las visualizaciones de datos son herramientas con mucho potencial, ya que de forma casi inmediata, te transmiten un mensaje. Por este motivo, también es fácil que se perviertan y se utilicen en campañas de desinformación, fake news, y otras.

Las visualizaciones de datos, por tanto, no son más que una representación visual de un conjunto de datos, también llamado dataset. Este dataset es una recolección de datos bien organizados y estructurados – por ejemplo en formato Excel – y que a priori son objetivos y no tienen una narrativa o una estructura comparativa o analítica.

A partir de estos datos brutos es cuando los trabajamos de una forma u otra -seleccionando los campos que más nos interesen, escogiendo una tipología u otra de visualización- y construimos una visualización de datos con un sentido y un propósito comunicativo.

En la visualización de datos de abajo, se ha buscado representar la contaminación (en emisiones de CO₂) de distintos países y continentes a lo largo de los años. Del dataset, por tanto, se han seleccionado los campos de país, continente, población, emisiones de CO₂ y CO₂ per cápita para cada año (de 1969 a 2019). De esta forma podemos saber qué países contaminan más en valores absolutos (eje x), pero también qué países son los que más contaminan per cápita (eje y), pudiendo así saber proporcionalmente cuáles son los más contaminantes. Asimismo, también podemos observar cuál es la evolución a lo largo de los años.

Si no hubiéramos incluido el dato de emisiones de CO₂ per cápita, pensaríamos que los países más contaminantes son China, Estados Unidos e India. Aunque es verdad que son los que emiten más emisiones, también es así porque tienen una población muy elevada (dato que se representa con el tamaño de la bola de cada país). Al incluir el dato de emisiones de CO₂ per cápita observamos que el país que más contamina proporcionalmente es Qatar. Las emisiones son muy bajas a nivel absoluto, pero porque tiene muy poca población. Si se tiene en cuenta este factor, resulta que son los más contaminantes.

La forma en que decidimos representar la información, qué datos seleccionar o qué recursos utilizar, pueden cambiar mucho como percibimos una información aparentemente objetiva. Así pues, como comentaba, es importante saber identificar malas prácticas, o técnicas habituales que se utilizan para tergiversar la información. Elementos que hacen que se malinterpreten los datos, a veces de forma inconsciente -por falta de conocimiento- y otras, con la voluntad de generar una opinión dirigida, y que es la que interesa a quien ha creado la visualización.

¿Cuáles son, pues, estas técnicas que pueden distorsionar la información? ¿Qué red flags o elementos pueden ser indicativos de una visualización de datos manipulada o modificada para confundir? A continuación explicamos los básicos, para poder detectar estas red flags, y así tener una visión más crítica.

¿De dónde salen estos datos?
Las visualizaciones de datos, como se ha comentado anteriormente, provienen de una fuente, generalmente un dataset. Este archivo contiene todos los datos brutos, a partir del cual se ha generado la gráfica. Así pues, siempre es importante que la fuente aparezca y que sea accesible. De esta forma, si vemos un dato que no nos encaja, o algo que nos llama la atención, podemos ir a la fuente original y comprobarlo. Si no existe la fuente, entonces es necesario sospechar, ya que se puede tratar de datos no contrastados o directamente inventados.


Selección y omisión de datos
Los datos que decidimos incluir – y los que no – pueden ser determinantes en el mensaje que se transmite de una visualización. Por tanto, es importante detectar el porqué de una selección y de otra. Por ejemplo, ¿la gráfica se ha hecho con datos demográficos de 2018 porque son los más actualizados? ¿O ha sido porque los resultados de 2019 ya no son tan atractivos por el mensaje que se quiere construir? ¿Los datos recogidos van de 1980 a 2020 porque los anteriores en los años 80 no existen, o bien porque no están disponibles para todas las categorías? ¿O es porque ha habido un cambio de tendencia que no interesa mostrar?

De nuevo, ir a la fuente original y ver los datos sucios nos ayudará a comprobar que no se haya realizado una selección u omisión de datos no justificada.

El contexto
Las visualizaciones de datos o infografías siempre se realizan con un objetivo concreto, y dentro de un contexto concreto. Es importante tener en cuenta la historia o el contexto de la época en la que se registran los datos, para entender desviaciones o tendencias cambiantes. ¿Había un contexto sociopolítico que provocó ese cambio de tendencia?

El cóvid-19, por ejemplo, ha añadido una complejidad a la hora de utilizar datos de aquella época para realizar visualizaciones de datos y analizar tendencias, ya que ha sido una época muy singular, en la que de repente prácticamente todas las tendencias se alteraron (transporte, turismo, paro, emisiones de CO₂, consumo, etc.). En el futuro, habrá que recordar que este cambio de tendencia estaba relacionado con una pandemia, y que este hecho debe considerarse a la hora de analizar globalmente la visualización.


Causalidad vs. correlación
Las personas tenemos una alta capacidad para reconocer patrones y, de hecho, es una habilidad que nos ayuda a memorizar y recordar caras, por ejemplo. Pero a veces nos lleva a encontrar relaciones o patrones donde no existen, fenómeno que se llama apofonía.

En este sentido, no todo lo que tiene una aparente correlación o sigue un mismo patrón tiene porqué ir atado, o ser un hecho causado por el otro. Es decir, no debe confundirse correlación con causalidad, y hay que tenerlo en cuenta al analizar un gráfico o una visualización de datos. Este famoso ejemplo demuestra cómo dos hechos que siguen un mismo patrón, claramente no están relacionados, y no se encuentran ligados por una relación causa efecto.

Fuente: https://www.gradiant.org/blog/claves-analisis-causal/


El color
Al realizar una visualización de datos, encontramos muchos recursos que nos ayudan a aportar más variables y capas de información. Si volvemos a la visualización inicial sobre las emisiones de CO₂, veremos que se ha utilizado el color para dar una información: el continente. Gracias a ello, podemos ver fácilmente, por ejemplo, la contaminación de los países asiáticos, puesto que son todas las bolas de color azul marino.

Así pues, el uso del color nunca debe ser arbitrario, sino informativo. Debe comunicar algo, clasificar, ordenar, diferenciar, etc. En este gráfico de abajo, por ejemplo, vemos un mal uso del color. Dado que no juega con el gradiente – ni de tono, ni de brillo – se hace más difícil entender de forma fácil y rápida, qué países se encuentran por encima de la media de esperanza de vida, y cuáles por debajo.

Fuente: https://www.cdc.gov/nchs/data/nvsr/nvsr70/nvsr70-18.pdf

Una propuesta más clara sería hacer que el gradiente fuera de oscuro a claro, de modo que enseguida verías que entre más oscuro, mejor esperanza de vida. Otra propuesta, que es la que se muestra debajo, sería que la esperanza de vida media (78.8) fuera blanca (o un color neutro) y que todo lo que quedara por debajo fuera de un color cálido, y lo que quedara por encima, de un color frío:


La escalera
En una visualización de datos con ejes, es importante cómo éstos se utilizan. Si un eje no comienza en el número 0, puede distorsionar mucho los datos, y acentuar diferencias de forma que parezcan mayores. Se trata de un efecto óptico muy utilizado para crear una falsa sensación de incremento o reducción cuando no es así.

Aquí se muestra un ejemplo sobre el incremento de criminalidad en Estados Unidos, que en 2021 subió un 7,5%. Al iniciar el eje de las Y en los 90.000 casos, este incremento parece ser del 200% o 300%. En este caso, el medio probablemente buscaba alarmar a la audiencia, y crear la sensación de que la criminalidad se encontraba descontrolada.

Fuente: https://twitter.com/bradlander/status/1494066688110833665/photo/1

Una versión con los mismos datos, pero iniciando el eje de las y al 0, muestra una gráfica totalmente diferente, pudiendo observarse cómo el incremento no es tan acentuado.

Fuente: https://twitter.com/NickAservy/status/1494090103861305344/photo/1

Otro ejemplo sobre el uso de la escalera lo encontramos en este gráfico sobre la media en la altura de las mujeres de distintos países. El hecho de utilizar un icono de una mujer hace que sea muy evidente el problema de este gráfico, ya que no puede ser que de media, las mujeres de Letonia sea cuatro veces más altas que las de la India.

Fuente: https://twitter.com/reina_sabah/status/1291509085855260672

De nuevo, corrigiendo el eje, la diferencia ya no parece tanta, y puedes hacerte una idea más realista de la diferencia entre países. Asimismo, utilizando iconos de personas con unas proporciones correctas, también hace que la percepción sea más realista.

Fuente: elaboración propia. Imágenes de Pinterest.

El tamaño
Las dimensiones son otro recurso para representar un valor. Mientras mayor el círculo o el icono, mayor es el valor. La visualización de abajo es muy confusa, ya que el tamaño parece estar representando los casos de COVID-19, porque es el dato que se muestra dentro del círculo. Si nos fijamos y comparamos los círculos, veremos que no puede ser, porque la Comunidad Valenciana tiene un círculo mayor que Andalucía, a pesar de tener menos casos reportados. Se trata de una visualización muy mal hecha, debido a que de forma automática, asociamos el tamaño del círculo con el valor de dentro (se trata de una asociación aprendida). Madrid tiene 10 veces más casos que Valencia, pero aparentemente parece estar en valores parecidos.

Font: https://twitter.com/dsn/status/1237776289907515395


Tipo de visualización
La elección del tipo de visualización de datos es crucial para que pueda interpretarse correctamente. Según la tipología de los datos, y del mensaje a transmitir, servirá una u otra. Debajo se muestra una selección incorrecta del tipo de visualización.

Se trata de una representación gráfica de diferentes plataformas de videojuegos, indicando el número total de juegos que lanzaba cada una a lo largo de los años. Es decir, el eje de las x son los años y el de las y son el número de juegos lanzados.

Hay tantas plataformas distintas, que la leyenda ocupa la mitad del espacio. Al mismo tiempo, en la representación visual, hay algunas marcas que prácticamente no se leen, y al haber tantos colores, no resulta útil la leyenda para interpretar de qué marca se trata en cada caso.

Una mejor opción para representar estos datos habría sido un scatter plot, como el ejemplo del principio. Cada plataforma sería un punto y el eje de las x representaría el número de juegos lanzados ese año. Los años irían avanzando y los puntos se posicionarían en un sitio u otro. Al mismo tiempo, podríamos poner algún otro dato en el eje de las y, que está libre, como por ejemplo los ingresos generados por cada plataforma.

Fuente: https://www.mobygames.com/forums/dga,2/dgb,3/dgm,254352/

Tener siempre una visión crítica
En definitiva, siempre es necesario observar con detenimiento las visualizaciones de datos, ya que como hemos podido ver, pueden manipular la información, o bien distorsionar la percepción de unos datos, a través de la forma en que se representan. Hay muchas más técnicas, pero el post nunca acabaría. Simplemente hay que tener un ojo crítico, y estar siempre al acecho.

Compartir