Entrevista a Anabel Forte
«Hace falta más consciencia de que los datos son importantes»
Profesora en Estadística e Investigación Operativa de la Universitat de València
El impacto repentino que ha tenido la COVID-19 en el mundo, desde principios de año, ha empujado a los países a registrar una enorme cantidad de datos sobre la repercusión de la pandemia en un periodo muy breve de tiempo. En el caso de España, esto ha afectado a la calidad de los datos que se comparten sobre la enfermedad. Un hecho que, unido a las discrepancias a la hora de establecer un consenso entre las diferentes administraciones, ha llegado a causar confusión en cuanto a las cifras. Un aspecto que daña la confianza del público y también la capacidad de poder analizar debidamente la crítica situación, con la finalidad de comprender mejor esta pandemia y prevenir otras en el futuro.
Así lo plantea un artículo reciente en The Conversation, impulsado por dos investigadores de la Universidad de Girona, Marc Sáez y María Antonia Barceló, y firmado por una treintena de científicos y científicas. Entre ellas se encuentra Anabel Forte, profesora de Estadística e Investigación Operativa de la Universitat de València, donde desarrolla su carrera docente, investigadora y divulgadora. Hablamos con ella sobre cómo se ha enfocado la pandemia desde el punto de vista de los datos y la estadística.
«Los datos que algunas veces tenían las comunidades eran diferentes a los que después reflejaba el Ministerio»
¿Por qué hay discrepancias en los datos sobre el impacto de la COVID-19 por parte de las diferentes administraciones de España?
En general hay muchas fuentes de error en los datos. Cosas que pueden llevar a malinterpretación y a la discrepancia. Por una parte, tenemos que considerar que la pandemia nos pilló en un momento en el que no todas las comunidades estaban al mismo nivel en cuanto a la posibilidad de recoger datos o en cuanto a la posibilidad de comunicación entre los hospitales y entre los centros de salud. Había distintos niveles de implementación de los servicios de vigilancia. En esa situación no todo el mundo tiene la misma capacidad de introducir los datos a la vez. Hemos llegado a ver casos en los que en una comunidad podía haber un número negativo de fallecidos, porque de una semana a la siguiente se habían actualizado los datos o se habían vuelto a guardar bien. Incluso ha habido aumentos muy grandes en un día, pero porque realmente los datos no eran de esa jornada, sino que venían de los días anteriores y no se habían recogido. Por otro lado, la definición de las variables ha llevado a que a veces los datos que tenía una comunidad no eran los mismos que después el Estado reportaba en su informe final. Por ejemplo, Cataluña podía reportar una serie de casos de fallecidos en los que contemplaba también los casos sospechosos de haber fallecido por coronavirus, mientras que luego el Ministerio solo contabilizaba los casos confirmados, pero no los sospechosos. Eso ha llevado a que los datos que algunas veces tenían las comunidades fueran diferentes a los que se veían reflejados después en los datos del Ministerio.
«Hacer análisis o estudios estadísticos a nivel global no permite hacer un mapa de lo que está pasando»
¿Las bases de datos ofrecen datos de calidad y son accesibles?
Ahora mismo en España, la recogida de datos centralizada la realiza el Instituto de Salud Carlos III, que tiene una base de datos accesible que se puede descargar y puede trabajar con ella. Pero la mayoría de los datos se recogen a nivel autonómico o provincial. Esos sí que están accesibles, y se puede trabajar con ellos sin problema. Pero cuando queremos hacer análisis o estudios estadísticos, a veces hace falta analizar variables socioeconómicas, variables relacionadas con el género, variables relacionadas con las edades de la población, etc. Y hacerlo a nivel global no da buenos resultados, no nos permite hacer un mapa de lo que está pasando. Si queremos ir a datos desagregados, es decir, a datos municipales o a nivel censal, lo que sucede muchas veces es que encontramos archivos en pdf, o datos que no se pueden descargar y trabajar con ellos. Por otra parte, cada comunidad los tiene a un nivel diferente de desagregación. Entonces, sí que hay unos datos que están accesibles, que son los datos estándar para todas las comunidades, pero si queremos ir al fondo de la cuestión, ya no encontramos ese tipo de datos [más específicos].
¿Una mejor calidad de los datos ayudaría a tomar mejores medidas políticas para enfrentar la pandemia?
Tener esos datos y poder analizarlos nos puede ayudar, no ya a tomar mejores decisiones inmediatas, pero sí a comprender la situación de la COVID-19 en general y a prevenir nuevas pandemias. Es decir, qué tenemos que hacer y cómo tenemos que mejorar. La OMS de hecho recomienda utilizar estos datos para hacer una auditoría de cómo funcionan nuestros sistemas de salud y ver qué hay que reforzar. Yo creo que eso sí que tenemos que aprovecharlo. Recuerdo ahora mismo un estudio del Grupo de Investigación en Bioestadística y Bioinformática de la Universidad Politécnica de Catalunya (GRBIO), en el que analizaban cómo cambiaban los tiempos de incubación de la enfermedad, según la franja de edad. Eso permite ajustar los tiempos de cuarentena, por ejemplo, y tener un menor efecto en cuanto a la incidencia laboral. Lo que sucede es que ahora mismo estamos desbordados.
¿Se podrían establecer unos estándares de medición que fueran iguales para todas las administraciones españolas?
Se podría, pero hace falta voluntad y, desde mi punto de vista, se podría crear un sistema de expertos y expertas en todas las regiones que hicieran un sistema de vigilancia de la recogida de datos. Lo que ocurre es que incluso en la web del Instituto de Salud Carlos III avisan de que: «la responsabilidad última de la recogida de datos recae en quien tiene que grabar ese dato». Ahí, lo que nos falta es cultura estadística y ser conscientes de que estos datos se van a tener que utilizar para hacer análisis en toda España, de manera que, cuando alguien vaya a introducir datos, sepa que es una tarea importante y hay que hacerla bien. Por otra parte, haría falta un trabajo que algunas comunidades sí que han hecho más y otras menos, que es la automatización de la introducción de los datos, porque eso lo hace todo más fácil.
«La recogida de datos puede ser mucho mejor en otros países que aquí, pero eso no significa que vayan a controlar mejor la pandemia o que los datos sean mejores»
¿Cuál es la diferencia entre la medición de los datos de impacto entre España y el resto de los países europeos?
No creo que los problemas de definición de variables sean diferentes de unos países a otros. Al final todos nos hemos encontrado con la situación de «muerte por COVID-19», «muerte con COVID-19», «nuevos positivos», «nuevos casos», «casos activos», etc. Es complejo cómo definimos y cuáles son los parámetros que utilizamos. La diferencia entre unos países y otros está en el grado de transparencia, en la desagregación de los datos y en cómo se encuentran disponibles. Pero, lo que a mí me parece que nos distingue más es la preocupación que tiene la sociedad por el uso de la estadística. Por ejemplo, en Reino Unido, la Royal Statistical Society ya lleva tiempo dando pautas para la recogida de datos e indicando a la sociedad lo importante que es. Están mucho más concienciados de ellos, y puede que la recogida de datos sea mucho mejor, pero eso no significa que vayan a controlar mejor la pandemia o que los datos sean mejores que aquí.
¿La falta de fiabilidad en los resultados de las investigaciones causa desconfianza?
Si tú no tienes datos fiables, por muy elaborado que sea tu modelo, no puedes dar unas buenas conclusiones. Pero hay muchas cosas que tener en cuenta. Porque, aparte de los datos, la situación que estamos viviendo es muy cambiante. De un día para otro se introducen unas normas en unas comunidades, y en el resto se introducen otras diferentes. Para tener un modelo a largo plazo, necesitas que las condiciones de base no cambien. Si no, uses el modelo que uses, obtendrás predicciones a dos días, pero no más. Marina Pollán, la directora del Centro Nacional de Epidemiología, comentaba recientemente que el virus en sí mismo es cambiante, por lo que predecir a largo plazo es prácticamente imposible. Si encima las condiciones de contexto cambian y los datos no están bien medidos, no se pueden hacer buenas predicciones. Hay que intentar no dejar al azar lo que podamos controlar y hacer un esfuerzo colectivo por buscar cuáles son las variables que nos puedan ayudar. Quizá tenemos que darle una vuelta y pensar cómo podemos modelizar unas variables que no son exactamente los datos que nos están dando, sino cosas que son una aproximación, como por ejemplo el exceso de mortalidad, pero que nos pueden ayudar a entender mejor lo que está pasando.
¿El número de pruebas realizadas también influye en los resultados?
Es una cuestión que hay que tener muy en cuenta. Si miramos los gráficos de las dos olas, parece que los de la segunda sean mucho más altos, pero es porque se han hecho muchas más pruebas. Lo que habría que dar no es solo el número de positivos, sino la tasa de positividad [el número de pruebas positivas entre las realizadas]. A su vez, sería interesante tener el número de casos nuevos y no tanto el de positivos. Por otra parte, como comentamos en el artículo de The Conversation, una de las variables que se debería tener en cuenta sería el número de casos activos en ese momento. Porque a veces ese número no se puede obtener directamente de lo que nos dan, de forma que no sabemos realmente cómo está la situación.
«Hay una falta de alfabetización numérica en la población que hace que los gráficos no se entiendan tal y como se plantean»
¿Cómo se están transmitiendo los datos a la sociedad por parte de los medios?
La forma en la que se están transmitiendo los datos a la sociedad es un tema muy importante. Por una parte, hay una falta de alfabetización numérica en la población que hace que los gráficos no se entiendan tal y como se plantean. Y luego, por otra, falta un poco más de pedagogía a la hora de explicarlos. Por ejemplo, me he encontrado con gráficos que indican la media a los siete días. Lo que pasa es que ahí están hablando de medias móviles, es decir, cada día se hace la media de los siete días anteriores. Esto permite suavizar la subida de la curva, pero si no se explica bien, no se termina de entender.
¿Qué otras variables no son percibidas correctamente por la sociedad?
Hay muchas variables que dificultan la comprensión por parte de la población. Por una parte, surge el problema de que se dan los datos en periodos diferentes; a siete días, otros los dan a catorce, o el fin de semana no hay datos y el lunes llega una cifra que es el doble de un día normal. Además, también nos llegan los «datos en crudo», es decir, cuántos casos nuevos hay en España y cuántos hay en otro país. Aquí se ha de comparar teniendo en cuenta que el tamaño de las poblaciones de esos países es diferente. En esta segunda ola se está mirando mucho más la incidencia, y casi todos los números son en casos por cada cien mil habitantes. Sin embargo, en la primera ola, se miraban los casos en crudo y la gente comparaba los países. Esto es un problema porque no se pueden comparar al no estar en las mismas unidades. También hay que entender que la tasa de positividad no son casos nuevos. En el artículo de The Conversation nos quejamos de cómo se definen las variables a la hora de coger los datos, y la forma en la que están llegando a la población.