Las comunidades autónomas son la primera fuente de información sobre la covid-19 en España. En la práctica, han coincidido en ofrecer los datos mínimos sobre la pandemia de forma diferente. Han empleado herramientas y formatos distintos, cambiantes sin previo aviso y, muchas veces, confusos.
Incluso una misma comunidad puede llegar a ofrecer datos discrepantes sobre un mismo concepto. Cada territorio se ha convertido, pues, en un silo de datos tan independiente que dificulta tanto su seguimiento diario como el análisis a medio y largo plazo.
Se podría objetar que el Ministerio de Sanidad presenta esos datos a diario, pero solo ofrece información por comunidades, salvo en el número de casos. Además, no está suficientemente actualizada, y realiza comparaciones entre realidades tan diferentes en extensión y en población como Andalucía y La Rioja.
Varias iniciativas particulares tratan de paliar este problema. Una de ellas es Escovid19data, que recopila de forma continua y sostenida unos datos mínimos para cada provincia española. Este proyecto colaborativo es mantenido por investigadores, académicos y particulares, coordinados por Pablo Rey, entre los que participa el autor de este texto.
Durante la experiencia del proyecto, se han detectado al menos cuatro tipos de dificultades genéricas para la recogida de esta información, repetidas tanto en los peores momentos como en otros con menor incidencia. Los tipos de datos que ofrecen, su nivel de agrupación, su temporalidad, y su coherencia y disponibilidad.
Se ofrecen a continuación algunos ejemplos de cada uno de estos problemas.
Tipos de datos
Existen cuatro tipos de datos brutos mínimos que se pretenden recoger a diario:
Número de personas enfermas, o “casos”.
Número de personas que están en un hospital, sean solo ingresados, o en la UCI.
Número de personas han superado la enfermedad, o “altas”.
Número de fallecidos.
Un primer problema común es que varias comunidades interrumpen sus datos en fin de semana, lo que facilita la comparación sesgada de casos entre días, a favor o en contra: “Hoy hay más (o menos) cantidad que hace unos días”.
También es frecuente la referencia a los “nuevos casos”, es decir, las personas que acaban de contagiarse, pero no cuántas siguen enfermas aún, como en Extremadura, Castilla-La Mancha, o la Comunidad Valenciana.
Otro caso que plantea dudas es Baleares, que ofrece en sus notas diarias el “número de personas atendidas”, mientras su mapa de datos incluye a los “casos activos”. Ambos datos no han coincidido en los últimos dos meses.
El nivel de agrupación
Cada comunidad autónoma agrupa sus cifras mediante distintas zonas: provincias, áreas sanitarias, municipios, hospitales o centros de atención primaria. Incluso, usan diferentes áreas para datos distintos, como hospitalizados por provincias, pero casos activos en toda la comunidad autónoma. Así ocurre en la Comunidad Valenciana.
A priori, cuanto más detallada es la presentación de la información disponible, más posibilidades de análisis. En la práctica, varias comunidades son un modelo de “muerte por datos”. Es decir, una avalancha de cifras y referencias muy difícil de procesar, que hace más difícil percibir la falta de otros datos.
Algunos ejemplos son las farragosas notas de prensa en la Comunidad Valenciana, Extremadura, Castilla-La Mancha y Navarra.
Otra práctica es la repetición de datos por distintas áreas que solo se refieren a un mismo concepto (como los casos), o la referencia solo a los acumulados desde el inicio de la pandemia. De esta forma, es más difícil percibir que faltan otros, como los hospitalizados, las personas en una UCI, o las altas de un día concreto, como ocurre en La Rioja.
También es frecuente el uso de un “tablero de datos”, muy engorroso y difícil de recopilar, como el de Canarias. Aún peor, en Galicia han faltado referencias de áreas concretas durante meses.
La temporalidad
La fecha es otro aspecto crítico. En muchas comunidades, no queda clara si la fecha de publicación coincide con la de referencia o es la del día anterior, la de recogida de los datos o la de aparición de casos. Así ocurre, por ejemplo, en los sitios web oficiales de Asturias y La Rioja.
Un detalle importante es el decalaje: la diferencia entre las cifras dadas en un primer momento y las que realmente son a corto o medio plazo, debido a problemas de todo tipo. Madrid ha sido noticia, con datos reales que llegan a ser el triple de los ofrecidos para un día concreto.
No obstante, es aún peor en otras comunidades, donde no se ofrece ningún seguimiento histórico (Baleares), o se ofrece solo para las últimas dos semanas, como en Castilla-La Mancha y en Extremadura).
Todo ello hace más difícil el cálculo de otros datos más complejos, pero necesarios: incidencias a 7 o a 14 días y comparación entre casos, ingresados y personas en UCI.
Disponibilidad y coherencia
Una de las prácticas más oscuras es la dispersión de los datos en múltiples fuentes, sin conexión entre sí. Eso hace más difícil su recogida, y favorece la falta de coherencia entre las mismas incluso dentro de la propia comunidad.
Por ejemplo, ni Galicia, ni Baleares, ni Navarra, ni Madrid, hacen mención en sus notas de prensa a que hay otras fuentes más detalladas en sus sitios web oficiales. O no hay datos sobre hospitalizados ni fallecidos en el sitio web de Murcia, pero sí en su cuenta de Twitter.
Por su parte, Andalucía no ofrece en su web estadística los datos sobre hospitalizaciones, que están en fuentes aparte, sin conexión entre ambas. País Vasco ofrece más información a veces en sus notas de prensa que en sus propios sitios web.
En muy pocas comunidades, los datos son realmente abiertos, es decir, fácilmente accesibles para su descarga y uso de forma automática (por ejemplo, usando formatos como CSV). Cuando lo hacen, no están todos, como ocurre en Navarra), o no pueden descargarse automáticamente. Así sucede en Asturias y en Galicia).
Es frecuente que la información solo sea ofrecida en formatos que hacen más difícil su recogida automática. Eso supone realizar una recogida manual, dato a dato y día a día, o tratar de crear programas (scraping) para ello. Así ocurre cuando están en redes sociales, como Ceuta, Melilla y Murcia).
También es frecuente encontrar datos principalmente en PDF, como ocurre en Madrid. Peor aún, varias comunidades (Baleares, Ceuta, Murcia) los publican en forma de gráficos.
En el caso de Aragón y Cataluña, se ofrece una riada de enlaces, gráficos y mapas, incluyendo opciones de descarga automática. Pero hay momentos en los que puede llegar a ser difícil encontrar ciertos datos por el modo en el que disponen la información en su web.
Más en concreto, en el País Vasco el total de hospitalizados varía entre sus diversas fuentes, y el total de fallecidos solo se desagrega por hospitales. Esto deja aparte al resto de decesos, que se dan en una sola cifra para toda la comunidad. Y en Madrid, se ofrecen sistemáticamente dos cifras de fallecimientos acumulados, a diario.
En resumen, la mayoría de los datos ofrecidos no responden a ninguno de los denominados principios FAIR, que se pretenden aplicar a los datos científicos: no son fácilmente localizables (“Findable”), ni “Accesibles” (al menos, no de forma automática ni compartida). Tampoco son “Interoperables” (tienen formatos muy distintos), y resultan muy difícilmente “Reutilizables” por todo lo anterior. ¿Hasta cuándo seguiremos así?
David Rodríguez Mateos no recibe salario, ni ejerce labores de consultoría, ni posee acciones, ni recibe financiación de ninguna compañía u organización que pueda obtener beneficio de este artículo, y ha declarado carecer de vínculos relevantes más allá del cargo académico citado.
Fuente: The Conversation (Creative Commons)
Author: David Rodríguez Mateos, Profesor de Periodismo de Datos, Universidad Carlos III