Entrevista a Anabel Forte
«Fa falta més consciència que les dades són importants»
Professora d'Estadística i Investigació Operativa de la Universitat de València
L’impacte sobtat que ha tingut la COVID-19 en el món, des de principis d’any, ha espentat els països a registrar una enorme quantitat de dades sobre la repercussió de la pandèmia en un període molt breu de temps. En el cas d’Espanya, això ha afectat la qualitat de les dades que es comparteixen sobre la malaltia. Un fet que, unit a les discrepàncies a l’hora d’establir un consens entre les diferents administracions, ha arribat a causar confusió quant a les xifres. Un aspecte que danya la confiança del públic i també la capacitat de poder analitzar degudament la crítica situació, amb la finalitat de comprendre millor aquesta pandèmia i previndre altres en el futur.
Així ho planteja un article recent en The Conversation, impulsat per dos investigadors de la Universitat de Girona, Marc Sáez i María Antonia Barceló, i signat per una trentena d’investigadors i investigadores de diferents centres. Entre elles es troba Anabel Forte, professora d’Estadística i Investigació Operativa de la Universitat de València, on desenvolupa la seua carrera docent, investigadora i divulgadora. Parlem amb ella sobre com s’ha enfocat la pandèmia des del punt de vista de les dades i l’estadística.
«Les dades que algunes vegades tenien les comunitats eren diferents de les que reflectia després el Ministeri»
Per què hi ha discrepàncies en les dades sobre l’impacte de la COVID-19 per part de les diferents administracions d’Espanya?
En general hi ha moltes fonts d’error en les dades. Coses que poden portar a la mala interpretació i a la discrepància. D’una banda, hem de considerar que la pandèmia ens va agafar en un moment en el qual no totes les comunitats estaven al mateix nivell quant a la possibilitat de recollir dades o quant a la possibilitat de comunicació entre els hospitals i entre els centres de salut. Hi havia diferents nivells d’implementació dels serveis de vigilància. En aquesta situació no tothom té la mateixa capacitat d’introduir les dades alhora. Hem arribat a veure casos en els quals en una comunitat podia haver-hi un nombre negatiu de morts, perquè d’una setmana a la següent s’havien actualitzat les dades o s’havien tornat a guardar bé. Fins i tot hi ha hagut augments molt grans en un dia, però perquè realment les dades no corresponien a aquest jornada, sinó que venien dels dies anteriors i no s’havien recollit. D’altra banda, la definició de les variables ha portat al fet que a vegades les dades que tenia una comunitat no eren les mateixes que després l’Estat reportava en el seu informe final. Per exemple, Catalunya podia reportar una sèrie de casos de morts, en els quals contemplava també els casos sospitosos d’haver mort per coronavirus, mentre que després el Ministeri només comptabilitzava els casos confirmats, però no els sospitosos. Això ha portat al fet que les dades que algunes vegades tenien les comunitats foren diferents de les que es veien reflectides després en les dades del Ministeri.
«Fer anàlisi o estudis estadístics a escala global no permet fer un mapa sobre què està passant»
Les bases de dades ofereixen dades de qualitat i són accessibles?
Ara mateix, a Espanya la recollida de dades centralitzada la realitza l’Institut de Salut Carles III, que té una base de dades accessible que es pot descarregar i amb la qual es pot treballar. Però la majoria de les dades es recullen en l’àmbit autonòmic o provincial. Aquestes sí que estan accessibles, i es pot treballar amb elles sense problema. Però quan volem fer anàlisi o estudis estadístics, a vegades fa falta analitzar variables socioeconòmiques, variables relacionades amb el gènere, relacionades amb les edats de la població, etc. I fer-ho a escala global no dona bons resultats, no ens permet fer un mapa sobre què està passant. Però si volem anar a dades desagregades, és a dir, a dades municipals o en l’àmbit censal, el que succeeix moltes vegades és que trobem arxius en PDF, o dades que no es poden descarregar i treballar. D’altra banda, cada comunitat les té a un nivell diferent de desagregació. Llavors, sí que hi ha unes dades que estan accessibles, que són les dades estàndard per a totes les comunitats, però si volem anar al fons de la qüestió, ja no trobem amb aquesta mena de dades [més específiques].
Una millor qualitat de les dades ajudaria a prendre millors mesures polítiques per a enfrontar la pandèmia?
Tenir aquestes dades i poder analitzar-les ens pot ajudar, no ja a prendre millors decisions immediates, però sí a comprendre la situació de la COVID-19 en general i prevenir noves pandèmies. És a dir, què hem de fer i com hem de millorar. L’OMS de fet recomana utilitzar aquestes dades per a fer una auditoria de com funcionen els nostres sistemes de salut i veure què cal reforçar. Jo crec que això sí que hem d’aprofitar-ho. Recorde ara mateix un estudi del Grup d’Investigació en Bioestadística i Bioinformàtica de la Universitat Politècnica de Catalunya (GRBIO), en el qual analitzaven com canviaven els temps d’incubació de la malaltia, segons la franja d’edat. Això permet ajustar els temps de quarantena, per exemple, i tindre un menor efecte quant a la incidència laboral. El que succeeix és que ara mateix estem desbordats.
Es podrien establir uns estàndards de mesurament que foren iguals per a totes les administracions espanyoles?
Es podria, però fa falta voluntat i, des del meu punt de vista, es podria crear un sistema d’experts i expertes en totes les regions que feren un sistema de vigilància de la recollida de dades. El que ocorre és que fins i tot en la web de l’Institut de Salut Carles III avisen que «la responsabilitat última de la recollida de dades recau en qui ha de registrar la dada». Ací, el que ens falta és cultura estadística i ser conscients que aquestes dades s’hauran d’utilitzar per a fer anàlisis a tot Espanya, de manera que, quan algú les introduïsca, sàpiga que és una tasca important i que cal fer-la bé. D’altra banda, faria falta un treball, que algunes comunitats sí que han fet i altres menys, que és l’automatització de la introducció de les dades, perquè això ho fa tot més fàcil.
«La recollida de dades pot ser millor en altres països que ací, però això no significa que es controle millor la pandèmia o que les dades siguen millors»
Quina és la diferència entre el mesurament de les dades d’impacte entre Espanya i la resta dels països europeus?
No crec que els problemes de definició de variables siguen diferents d’uns països a uns altres. Al final tots ens hem trobat amb la situació de «mort per COVID-19», «mort amb COVID-19», «nous positius», «nous casos», «casos actius», etc. És complex com definim i quins són els paràmetres que utilitzem. La diferència entre uns països i altres està en el grau de transparència, en la desagregació de les dades i en com es troben disponibles. Però, a mi em sembla que allò que ens distingeix més és la preocupació que té la societat per l’ús de l’estadística. Per exemple, a Regne Unit, la Royal Statistical Society ja fa temps que dona pautes per a la recollida de dades i indica a la societat l’important que és. N’estan molt més conscienciats, i pot ser que la recollida de dades siga molt millor, però això no significa que controlen millor la pandèmia o que les dades siguen millors que ací.
La falta de fiabilitat en els resultats de les investigacions causa desconfiança?
Si tu no tens dades fiables, per molt elaborat que siga el teu model, no pots donar unes bones conclusions. Però hi ha moltes coses a tindre en compte. Perquè, a banda de les dades, la situació que estem vivint és molt canviant. D’un dia per a un altre s’introdueixen unes normes en unes comunitats, i en la resta s’introdueixen d’altres diferents. Per a tindre un model a llarg termini, necessites que les condicions de base no canvien. Si no, uses el model que uses, obtindràs prediccions per a dos dies, però no per a més. Marina Pollán, la directora del Centre Nacional d’Epidemiologia, comentava recentment que el virus en si mateix és canviant, per la qual cosa predir a llarg termini és pràcticament impossible. Si damunt les condicions de context canvien i les dades no estan ben mesurades, no es poden fer bones prediccions. Cal intentar no deixar a l’atzar el que puguem controlar i fer un esforç col·lectiu per a buscar quines són les variables que ens puguen ajudar. Potser hem de fer-li una volta i pensar com podem modelitzar unes variables que no són exactament les dades que ens estan donant, sinó que són una aproximació, com per exemple l’excés de mortalitat, però que ens poden ajudar a entendre millor el que està passant.
El nombre de proves realitzades també influeix en els resultats?
És una qüestió que cal tindre molt en compte. Si mirem els gràfics de les dues ones, sembla que els de la segona siguen molt més alts, però és perquè s’han fet moltes més proves. El que caldria donar no és només el nombre de positius, sinó la taxa de positivitat [el nombre de proves positives entre les realitzades]. Al seu torn, seria interessant tindre el nombre de casos nous i no tant el de positius. D’altra banda, com comentem en l’article de The Conversation, una de les variables que s’hauria de tindre en compte seria el nombre de casos actius en aquest moment. Perquè a vegades aquest número no es pot obtindre directament del que ens donen, de manera que no sabem realment com està la situació.
«Hi ha una falta d’alfabetització numèrica en la població que fa que els gràfics no s’entenguen tal com es plantegen»
Com s’estan transmetent les dades a la societat per part dels mitjans?
La forma en la qual s’estan transmetent les dades a la societat és un tema molt important. D’una banda, hi ha una falta d’alfabetització numèrica en la població que fa que els gràfics no s’entenguen tal com es plantegen. I després, d’una altra, falta una mica més de pedagogia a l’hora d’explicar-los. Per exemple, m’he trobat amb gràfics que indiquen la mitjana al cap de set dies. El que passa és que ací estan parlant de mitjanes mòbils, és a dir, cada dia es fa la mitjana dels set dies anteriors. Això permet suavitzar la pujada de la corba, però si no s’explica bé, no s’acaba d’entendre.
Quines altres variables no són percebudes correctament per la societat?
Hi ha moltes variables que dificulten la comprensió per part de la població. D’una banda, sorgeix el problema que es donen les dades en períodes diferents; a set dies, unes altres les donen a catorze, o el cap de setmana no hi ha dades i el dilluns arriba una xifra que és el doble d’un dia normal. A més, també ens arriben les «dades en cru», és a dir, quants casos nous hi ha a Espanya i quants n’hi ha en un altre país. Ací s’ha de comparar tenint en compte que la grandària de les poblacions d’aquests països és diferent. En aquesta segona onada s’està mirant molt més la incidència, i quasi tots els números són en casos per cada cent mil habitants. No obstant això, en la primera onada, es miraven els casos en cru i la gent comparava els països. Això és un problema perquè no es poden comparar en no estar en les mateixes unitats. També cal entendre que la taxa de positivitat no són casos nous. En l’article de The Conversation ens queixem de com es defineixen les variables a l’hora d’agafar les dades, i de quina forma estan arribant a la població.