visualització de dades

Visualitzacions de dades: ciència, subjectivitat i política

En un context on de cada vegada el contingut visual guanya més pes i es viralitza amb molta més facilitat que el textual, és vital tenir una visió crítica i saber discernir i entendre si una informació en format gràfic és veraç.

En els últims anys, les visualitzacions de dades han viscut un boom, i en l’actualitat ens les podem trobar per tot arreu. La visualització de dades és una disciplina que transforma grans quantitats de dades en una representació visual. Un recurs especialment útil quan tenim un volum molt gran d’informació, i el volem visualitzar de manera gràfica i interactiva per així poder analitzar o comparar les dades associades.

Les infografies i les visualitzacions de dades són eines amb molt de potencial, ja que de manera gairebé immediata, et transmeten un missatge. Per aquest motiu també és fàcil que es perverteixin i s’utilitzin en campanyes de desinformació, fake news, i d’altres.

Les visualitzacions de dades, doncs, no són més que una representació visual d’un conjunt de dades, també anomenat dataset. Aquest dataset és una recol·lecció de dades ben organitzades i estructurades – per exemple en format Excel – i que a priori són objectives i no tenen una narrativa o una estructura comparativa o analítica.

A partir d’aquestes dades brutes és quan les treballem d’una manera o altra – seleccionant els camps que més ens interessin, escollint una tipologia o altra de visualització – i construïm una visualització de dades amb un sentit i un propòsit comunicatiu.

Per exemple, en la visualització de dades que incrustem tot seguit, s’ha buscat representar la contaminació (en emissions de CO₂) de diferents països i continents al llarg dels anys. Del dataset, per tant, s’han seleccionat els camps de país, continent, població, emissions de CO₂ i CO₂ per càpita per a cada any (del 1969 al 2019). D’aquesta manera podem saber quins països contaminen més en valors absoluts (eix x), però també quins països són els que contaminen més per càpita (eix y), podent així saber proporcionalment quins són els més contaminants. Alhora, també podem observar quina és l’evolució al llarg dels anys.

Si no haguéssim inclòs la dada d’emissions de CO₂ per càpita, pensaríem que els països més contaminants són la Xina, els Estats Units i l’Índia. Tot i que és veritat que són els que emeten més emissions, també és així perquè tenen una població molt elevada (dada que es representa amb la mida de la bola de cada país). En incloure la dada d’emissions de CO₂ per càpita observem que el país que més contamina proporcionalment és Qatar. Les emissions són molt baixes a escala absoluta, però perquè té molt poca població. Si tenim en compte aquest factor, resulta que són els més contaminants.

La manera com decidim representar la informació, quines dades seleccionar o quins recursos utilitzar, poden canviar molt com percebem una informació aparentment objectiva. Així doncs, com comentava, és important saber identificar males pràctiques, o tècniques habituals que es fan servir per a tergiversar la informació. Elements que fan que es malinterpretin les dades, a vegades de manera inconscient – per falta de coneixement – i d’altres, amb la voluntat de generar una opinió dirigida, i que és la que interessa a qui ha creat la visualització.

Quines són, doncs, aquestes tècniques que poden distorsionar la informació? Quines red flags o quins elements poden ser indicatius d’una visualització de dades manipulada o modificada per confondre? Us expliquem els bàsics perquè pugueu detectar aquestes red flags, i així tenir una visió més crítica.

D’on surten aquestes dades?
Les visualitzacions de dades, com s’ha comentat anteriorment, provenen d’una font, generalment un dataset. Aquest arxiu conté totes les dades brutes, a partir de la qual s’ha generat la gràfica. Així doncs, sempre és important que la font aparegui, i que sigui accessible. D’aquesta manera, si veiem una dada que no ens encaixa, o alguna cosa que ens crida l’atenció, podem anar a la font original i comprovar-ho. Si no hi ha la font, llavors cal sospitar, ja que es pot tractar de dades no contrastades o directament inventades.

Selecció i omissió de dades
Les dades que decidim incloure – i les que no – poden ser determinants en el missatge que es transmet d’una visualització. Per tant, és important detectar el perquè d’una selecció i d’una altra. Per exemple, la gràfica s’ha fet amb dades demogràfiques del 2018 perquè són les més actualitzades? O ha sigut perquè els resultats del 2019 ja no són tan atractius pel missatge que es vol construir? Les dades recollides van del 1980 al 2020 perquè les anteriors als anys 80 no existeixen, o bé perquè no estan disponibles per a totes les categories? O és perquè hi ha hagut un canvi de tendència que no interessa mostrar?

De nou, anar a la font original i veure les dades brutes ens ajudarà a comprovar que no s’hagi fet una selecció o omissió de dades no justificada.

El context
Les visualitzacions de dades o les infografies sempre es realitzen amb un objectiu concret, i dins d’un context concret. És important tenir en compte la història o el context de l’època en què es registren les dades, per entendre desviacions o tendències canviants. Hi havia un context sociopolític que va provocar aquest canvi de tendència?

El covid-19, per exemple, ha afegit una complexitat a l’hora d’utilitzar dades d’aquella època per a realitzar visualitzacions de dades i analitzar tendències, ja que ha sigut una època molt singular, en què de sobte pràcticament totes les tendències es van alterar (transport, turisme, atur, emissions de CO₂, consum, etc.). En el futur, caldrà recordar que aquest canvi de tendència estava relacionat amb una pandèmia, i que s’ha de considerar aquest fet a l’hora d’analitzar globalment la visualització.

Causalitat vs. correlació
Les persones tenim una alta capacitat per a reconèixer patrons, i de fet, és una habilitat que ens ajuda a memoritzar i recordar cares, per exemple. Però a vegades ens porta a trobar relacions o patrons on no n’hi ha, fenomen que s’anomena apofonia.

En aquest sentit, no tot el que té una aparent correlació o segueix un mateix patró té perquè anar lligat, o ser un fet causat per l’altre. És a dir, no s’ha de confondre correlació amb causalitat, i cal tenir-ho en compte en analitzar un gràfic o una visualització de dades. Aquest famós exemple demostra com dos fets que segueixen un mateix patró, clarament no estan relacionats, i no es troben lligats per una relació causa efecte.

Font: https://www.gradiant.org/blog/claves-analisis-causal/

El color
En realitzar una visualització de dades, trobem molts recursos que ens ajuden a aportar més variables i més capes d’informació. Si tornem a la visualització inicial sobre les emissions de CO₂, veurem que s’ha utilitzat el color per a donar una informació: el continent. Gràcies a això, podem veure fàcilment, per exemple, la contaminació dels països asiàtics, ja que són totes les boles de color blau marí.

Així doncs, l’ús del color no ha de ser mai arbitrari, sinó informatiu. Ha de comunicar alguna cosa, classificar, ordenar, diferenciar, etc. En aquest gràfic de sota, per exemple, veiem un mal ús del color. Com que no juga amb el gradient – ni de to, ni de brillantor – es fa més difícil entendre de manera fàcil i ràpida, quins països es troben per sobre de la mitjana d’esperança de vida, i quins per sota.

Font: https://www.cdc.gov/nchs/data/nvsr/nvsr70/nvsr70-18.pdf

Una proposta més clara seria fer que el gradient anés de fosc a clar, de manera que de seguida veuries que entre més fosc, millor esperança de vida. Una altra proposta, que és la que es mostra a sota, seria que l’esperança de vida mitja (78.8) fos blanca (o un color neutre) i que tot el que quedés per sota fos d’un color càlid, i el que quedés per sobre, d’un color fred:

L’escala
En una visualització de dades amb eixos, és important com aquests s’utilitzen. Si un eix no comença al número 0, pot distorsionar molt les dades, i accentuar diferències de manera que semblin més grans. Es tracta d’un efecte òptic molt emprat per crear una falsa sensació d’increment o reducció, quan no és així.

Aquí es mostra un exemple sobre l’increment de criminalitat als Estats Units, que l’any 2021 va pujar un 7,5%. En iniciar l’eix de les Y als 90.000 casos, aquest increment sembla que sigui del 200% o 300%. En aquest cas, el mitjà probablement buscava alarmar l’audiència, i crear la sensació que la criminalitat es trobava descontrolada.

Font: https://twitter.com/bradlander/status/1494066688110833665/photo/1

Una versió amb les mateixes dades, però iniciant l’eix de les y al 0, mostra una gràfica totalment diferent, i es pot observar com l’increment no és tan accentuat.

Font: https://twitter.com/NickAservy/status/1494090103861305344/photo/1

Un altre exemple sobre l’ús de l’escala el trobem en aquest gràfic sobre la mitjana en l’alçada de les dones de diferents països. El fet d’utilitzar una icona d’una dona, fa que sigui molt evident el problema d’aquest gràfic, ja que no pot ser que de mitjana, les dones de Letònia sigui quatre vegades més altes que les de l’Índia.

Font: https://twitter.com/reina_sabah/status/1291509085855260672

De nou, corregint l’eix, la diferència ja no sembla tanta, i et pots fer una idea més realista de la diferència entre països. Alhora, utilitzant icones de persones amb unes proporcions correctes, també fa que la percepció sigui més realista.

Font: elaboració pròpia. Imatges de Pinterest.

La mida
Les dimensions són un altre recurs per a representar un valor. Entre més gran el cercle o la icona, més gran és el valor. La visualització de sota és molt confusa, ja que la mida sembla que estigui representant els casos de COVID-19, perquè és la dada que es mostra a dins del cercle. Si ens fixem i comparem els cercles, veurem que no pot ser, perquè la Comunitat Valenciana té un cercle més gran que Andalusia, tot i tenir menys casos reportats. Es tracta d’una visualització molt mal feta, pel fet que de manera automàtica, associem la mida del cercle amb el valor de dins (es tracta d’una associació apresa). Madrid té 10 vegades més casos que València, però aparentment sembla que estiguin en uns valors semblants.

Font: https://twitter.com/dsn/status/1237776289907515395

Tipus de visualització
L’elecció del tipus de visualització de dades és crucial perquè es pugui interpretar correctament. Segons la tipologia de les dades, i del missatge a transmetre, servirà una o altra. A sota es mostra una selecció incorrecta del tipus de visualització.

Es tracta d’una representació gràfica de diferents plataformes de videojocs, i s’indica el nombre total de jocs que llançava cada una al llarg dels anys. És a dir, l’eix de les x són els anys, i el de les y són el nombre de jocs llançats.

Hi ha tantes plataformes diferents, que la llegenda ocupa la meitat de l’espai. Alhora, a la representació visual, hi ha algunes marques que pràcticament no es llegeixen, i en haver-hi tants colors, no és útil la llegenda per interpretar de quina marca es tracta en cada cas.

Una millor opció per a representar aquestes dades hauria sigut un scatter plot, com l’exemple del principi. Cada plataforma seria un punt i l’eix de les x representaria el nombre de jocs llançats aquell any. Els anys anirien avançant i els punts es posicionarien a un lloc o un altre. Alhora, podríem posar alguna altra dada a l’eix de les y, que està lliure, com per exemple els ingressos generats per cada plataforma.

Font: https://www.mobygames.com/forums/dga,2/dgb,3/dgm,254352/

Tenir sempre una visió crítica
En definitiva, sempre cal observar amb deteniment les visualitzacions de dades, ja que com hem pogut veure, poden manipular la informació, o bé distorsionar la percepció d’unes dades, a través de la manera en com es representen. Hi ha moltes més tècniques, però el post no s’acabaria mai. Simplement cal tenir un ull crític, i estar sempre a l’aguait.

Compartir