Cómo gestionar la sobrecarga de información científica sobre COVID-19

LoQueSigue.tv

hace 6 años

Nota editorial (2025): publicado originalmente en 2020. Se añadió una versión estructurada con fines enciclopédicos. El texto original se conserva íntegro como parte del archivo histórico.

Búsqueda eficiente de respuestas a preguntas específs que aborda la sobrecarga de información en el contexto de COVID-19

Sobrelaza del artículo

Tabla de contenido:

El presente ensayo examina la expansión acelerada de literatura científica a raíz de la crisis sanitaria por COVID-19 y destaca un sistema avanzado diseñado para facilitar una búsqueda eficiente. Este artículo, desarrollado por investigadores internacionales en respuesta al llamado del gobierno estadounidense, ganó premios como parte de su propuesta.

Métodos y potencial impacto

El sistema utiliza inteligencia artificial para buscar entre más de 63 000 documentos relacionados con COVID-19, seleccionando aquellos que contienen información relevante.
Se basa en el algoritmo BM25 y modelado lingüístico por medio del modelo BERT para mejorar la precisión de los resultados obtenidos a través de preguntas anotadas humanamente sobre temas generales.

Resultados

El sistema Ixa participó en una competición y fue seleccionado como el más eficiente para responder a las 10 tareas definidas, ganando específicamente la primera. Ofrece resultados mediante un proceso de tres fases: filtrar los artículos relacionados con COVID-19 (Fase I), aplicar BM25 y seleccionar artículos relevantes para cada pregunta (Fase II), utilizando el modelo BERT preentrenado sobre una base de 83 00table. El sistema responde a cinco artículos por pregunta, con las tres alternativas más probables destacadas.

Conclusiones

El desarrollo propuesto es una herramienta útil para expertos en lucha contra la enfermedad COVID-19 al reducir el tiempo y esfuerzo requerido para buscar información relevante.
La implementación de este sistema tiene potencial implicaciones significativas, ya que reduce notablemente la sobrecarga del conocimiento científico relacionado con esta enfermedad en curso.

Preguntas frecuentes

«`html

Eficiência na busca de respostas para perguntas específicas sobre a sobrecarga de informações no contexto da COVID-19

Resumo do artigo

O presente estudo analisa o crescente aumento na produção científica devido à crise sanitária por COVID-19 e introduz um sistema avançado para otimizar a busca de informações. Este sistema foi projetado em resposta ao pedido do governo dos EUA, ganhando prêmios como parte da proposta.

Metodologia e impacto potencial

Utiliza inteligencia artificial para selecionar artigos relevantes entre mais de 63 mil documentos relacionados ao COVID-19 com base em informações anotadas humanamente sobre temas gerais.
Baseia-se no algoritmo BM25 e modelagem linguística usando o modelo BERT para aumentar a precisão dos resultados buscados.

Resultados

O sistema Ixa participou em uma competição, obtendo como resultado selecioná-lo mais eficientemente para responder as 10 tarefas definidas. É capaz de fornecer resultados por meio de um processo que inclui três etapas: filtrar artigos relacionados ao COVID-19 (Etapa I), aplicar o algoritmo BM25 e selecionar os mais relevantes para cada pergunta, usando o modelo BERT pré-treinado com uma base de 83 milhões.

Conclusões

O sistema proposto é um recurso valioso para especialistas na luta contra a doença COVID-19, reduzindo significativamente o tempo e esforço necessários para encontrar informações relevantes.
A implementação deste sistema pode ter impactos significativos devido à sua capacidade de diminuir drasticamente a sobrecarga do conhecimento científico relacionado ao COVID-19 em curso.

«`

Texto original (2020)

Este artículo aborda la creciente sobrecarga de información en el contexto de la crisis sanitaria ocasionada por COVID-19 y resalta un sistema avanzado diseñado para facilitar la búsqueda eficiente de respuestas pertinentes a preguntas específsuitas al coronavirus. Desarrollados por una comunidad internacional, el artículo destaca los métodos empleados y su potencial impacto en la investigación actual. CÓDIGO DEL ARTICULO: “`python

Nota editorial (2025): publicado originalmente en 2020. Se añadió una versión estructurada con fines enciclopédicos. El texto original se conserva íntegro como parte del archivo histórico. — Max langelott/Unsplash

Desde el inicio de la crisis sanitaria provocada por la COVID-19, los científicos que luchan contra esta enfermedad están ahogados por la creciente literatura científica.

Ante esta situación, y respondiendo a un llamamiento del gobierno de los Estados Unidos, numerosos grupos de investigadores han explorado diferentes soluciones. El sistema de búsqueda de respuestas que hemos propuesto los autores de este artículo ha sido uno de los premiados por esa iniciativa.

Miles de artículos por semana

La comunidad médica y científica necesita compartir información relevante para hacer frente a la pandemia de COVID-19. Sin embargo, la cantidad de información disponible hoy día acerca del coronavirus causante de esta enfermedad es enorme.

Además, conforme pasa el tiempo y a medida que la pandemia se ha ido extendiendo por todo el mundo, el ritmo de publicación de artículos científicos sobre este tema ha ido creciendo.

Se han llegado a publicar más de 4 000 papers en una semana. Expertos como el virólogo Timothy Sheahan, que trabaja en la Universidad de Carolina del Norte, han reconocido la dificultad de estar al corriente de todo lo que se publica.

Llamamiento a los investigadores de IA

Ante esta situación, y a petición de la Oficina de Política de Ciencia y Tecnología de la Casa Blanca, varios grupos de investigación destacados pusieron a disposición de la comunidad científica mundial una colección de artículos científicos: COVID-19 Open Research Dataset (CORD-19), con más de 63 000 documentos.

Además, se hizo un llamamiento a los investigadores de todo el mundo para que aplicaran las últimas técnicas en inteligencia artificial y procesamiento del lenguaje. El objetivo era conseguir que los científicos que luchan contra la enfermedad COVID-19 puedan encontrar información relevante y precisa en las publicaciones.

Los organizadores pusieron en marcha una competición a través de la plataforma Kaggle. En una primera fase se definieron 10 tareas. En cada una de ellas se enumeraron las preguntas clave de un tema diferente relacionado con la COVID-19. Estas preguntas fueron creadas basándose, entre otros, en el plan de acciones de investigación y desarrollo de la Organización Mundial de la Salud.

Los investigadores participantes han puesto en esta plataforma los sistemas de procesamiento de datos y texto desarrollados para esta competición, de manera que están disponibles para expertos de todo el mundo.

Un sistema que responde a las preguntas

El grupo de investigación Ixa participamos en esta competición. Para ello desarrollamos un sistema que, analizando los mencionados artículos científicos, busca respuestas a las preguntas planteadas por los expertos.

Nuestro sistema ganó una de las 10 tareas de la primera fase. Concretamente, ha sido seleccionado como el sistema que mejor ha respondido al cuestionario sobre el tema ¿Qué sabemos sobre diagnóstico y vigilancia?

En la imagen que sigue a este párrafo se puede observar una de las preguntas de este tema y lo que el sistema responde (en negrita), así como información de la publicación y contexto donde se ha encontrado la respuesta (en naranja oscuro la respuesta, en naranja más claro la información más relevante).

Respuestas del sistema dadas a una de las preguntas del tema What do we know about diagnostics and surveillance?

Todas las preguntas y las respuestas dadas por el sistema pueden verse aquí y el código se puede consultar junto con su descripción técnica.

¿Cómo se realiza la búsqueda?

Ya hemos visto a qué tipo de preguntas responde este exitoso sistema de búsqueda de respuestas. Pero ¿cómo busca el sistema estas respuestas entre tantos artículos científicos? El proceso de búsqueda de respuestas para una pregunta concreta se divide en 3 fases principales.

En una primera fase se seleccionan de toda la colección de artículos solamente los que están relacionados con la enfermedad COVID-19, ya que en esta colección también se incluyen artículos sobre otros coronavirus distintos al COVID-19, como SARS-CoV y MERS. Para realizar esta selección, se analiza el título y resumen de cada trabajo para ver si contienen palabras utilizadas como sinónimo de la COVID-19 por la comunidad científica.

En la siguiente fase un sistema de recuperación de información extrae unos pocos artículos de entre los previamente seleccionados. El sistema es capaz de discriminar los artículos que potencialmente contienen la repuesta a la pregunta formulada por el usuario. Para ello, primero se crea una estructura de datos llamada índice que guarda una referencia del artículo donde aparece cada palabra. Esta estructura de datos permite buscar información de forma muy eficaz.

Una vez creado el índice, se utiliza el algoritmo de búsqueda BM25 para encontrar los artículos más relevantes para cada pregunta. Dicho algoritmo utiliza el índice para buscar en qué artículos se encuentra cada palabra de la pregunta. BM25 asigna una puntuación que mide la relevancia de cada uno de los artículos para cada pregunta. Para ello tiene en cuenta diferentes métricas como el número de apariciones y la longitud de los artículos. En esta fase se seleccionan los 20 artículos con mayor puntuación.

En la fase final, la búsqueda de respuestas se hace sobre los 20 artículos seleccionados. Para ello se aplican técnicas avanzadas basadas en redes neuronales de inteligencia artificial. En concreto, estas técnicas emplean el modelo lingüístico denominado BERT (Bidirectional Encoder Representations from Transformers).

BERT, utilizado en el buscador de Google, es capaz de crear una representación contextual para cada palabra, que depende también de las que le rodean. Las palabras y expresiones que tienen un significado parecido estarán más cerca entre ellas que las que no lo tienen, como si de un mapa se tratara.

Para adaptar este modelo lingüístico y darle la capacidad de responder preguntas se utilizaron 83 000 preguntas y respuestas anotadas por humanos. Es importante puntualizar que estas 83 000 preguntas no tienen relación con la enfermedad y tratan sobre temas generales. Por ello, el sistema podría ser utilizado también para responder preguntas en otros dominios y en un futuro podría adaptarse mejor al tema.

Tras aplicar este último sistema de búsqueda de respuesta, el usuario que formula la pregunta recibe cinco artículos de los seleccionados en la segunda fase y en cada uno se resaltan las tres respuestas más probables.

Limitamos el número de artículos a cinco para no sobrecargar al usuario con demasiada información. Además, cabe la posibilidad de que no todos los 20 artículos de la segunda fase contengan la respuesta deseada y por ello también son descartados.

Un sistema útil para los científicos

Este sistema de búsqueda de respuestas es de gran ayuda para buscar de una manera rápida y cómoda respuestas a las preguntas prioritarias de los expertos sobre la COVID-19, disminuyendo el tiempo necesario para recabar información.

Por ejemplo, el programa puede responder a preguntas sobre la historia del coronavirus, la transmisión y diagnóstico, las medidas de prevención en el contacto entre seres humanos y animales y las lecciones de estudios epidemiológicos previos.

Los últimos avances en el uso de la inteligencia artificial para el procesamiento del lenguaje han permitido desarrollar sistemas avanzados de acceso a la información. En un trabajo relacionado de nuestro grupo hemos demostrado que pueden llegar a tener conversaciones sobre temas especializados.

Estos sistemas son prueba de la importancia de estas tecnologías para hacer frente a la gran cantidad de información que se genera constantemente.

Arantxa Otegi recibe fondos de MINECO y Gobierno Vasco.

Aitor Soroa recibe fondos de MINECO y Gobierno Vasco.

Eneko Agirre recibe fondos de MINECO y Gobierno Vasco.

Jon Ander Campos recibe fondos de Gobierno Vasco y MECD.

Fuente: The Conversation (Creative Commons)
Author: Arantxa Otegi, Investigadora postdoctoral en análisis y procesamiento del lenguaje, Ixa NLP Group, Universidad del País Vasco / Euskal Herriko Unibertsitatea