Módulos de trabajo

Módulo 2. Análisis del problema

Como punto de partida de las tareas científicas a realizar por el proyecto, es necesario iniciar actividades para describir dominios y escenarios, y para estudiar tecnologías y algoritmos, por ejemplo, el estado del arte, y la factibilidad de obtener información para su posterior análisis. Un conocimiento adecuado de los retos a abordar permitirán un proceso de investigación más riguroso, racional y sistemático.

Hitos propuestos

  • Lista y descripción de escenarios seleccionados.
  • Estado del arte en las diferentes tareas a abordar y orientado a cada escenario.
  • Fuentes de datos que se usarán para cada escenario.

Entregables

  • Informe que describa los escenarios seleccionados.
  • Lista de artículos que contienen el estado del arte (bibliografía relevante) organizados según tarea/escenario.
  • Lista de fuentes de datos.

Tarea 2.1 Identificar y caracterizar dominios y escenarios

Esta tarea identificará los dominios estudiados a lo largo del proyecto, incluidos: medios de comunicación, redes sociales, política, biomedicina (con especial atención a la crisis pandémica), turismo, política y administración pública, publicidad y reputación de marca, comunicaciones científicas, etc. Estos dominios podrían ser analizados y evaluados en diferentes lenguajes y en diferentes escenarios, incluyendo: mentira, violencia, acoso, filtraciones, depresión, partidismo, racismo, sexismo, diarios de depredadores sexuales, etc. Los escenarios en juego pueden agruparse bajo el título de «desorden informativo» (Wardle, Derakhshan, 2017, 2018). Esto incluye desinformación (engaños, noticias falsas), información errónea (errores, información engañosa, contenido sesgado) y mala información (filtraciones, acoso, incitación al odio). También se plantean otros escenarios en los que el tratamiento y análisis de la información nos permitirá hacer una contribución beneficiosa a la sociedad, por ejemplo, en el contexto de la detección y prevención de enfermedades, alertar de posibles delitos, generar contenidos constructivos o reforzar el discurso positivo.

Tarea 2.2 Identificación de técnicas y algoritmos

Esta tarea identificará diferentes herramientas y algoritmos que se pueden utilizar para desarrollar el software necesario con el fin de lograr los objetivos del proyecto. Teniendo en cuenta el estado del arte, analizaremos diferentes bibliotecas de código abierto de lenguajes de programación específicos para el desarrollo y evaluación de máquinas modelos de aprendizaje. En cuanto al machine learning, se analizarán diferentes algoritmos para desarrollar modelos predictivos. Incluyendo por ejemplo, SVM, Random Forest o k-NN. Estos algoritmos se pueden complementar con otros enfoques como, por ejemplo, arquitecturas de deep learning, incluido el fine tuning sobre modelos semi-supervisados o soluciones de aprendizaje de zero-shot. Estos modelos podrían ayudar a desarrollar algoritmos basados en redes neuronales profundas como RNN y LSTM. Para apoyar este tipo de implementación, analizará diferentes librerías como por ejemplo TensorFlow, Pytorch y Keras. Para realizar análisis de texto será necesario utilizar bibliotecas específicas de PLN. Analizaremos diferentes bibliotecas para realizar análisis lingüísticos, admitir diferentes idiomas, proporcionar entidades de reconocimiento de nombre, análisis de sentimientos o vinculación de entidades, entre otras posibilidades. Además, intentaremos incorporar modelos Transformer. Estos modelos proporcionarán representaciones vectoriales densas para palabras en un espacio semántico que se pueda utilizar en aplicaciones PLN posteriores, como clasificación de texto, respuesta a preguntas y reconocimiento de entidades. En los últimos años, el uso de transformadores ha mejorado el rendimiento de muchas tareas de PLN.

Tarea 2.3 Determinación de fuentes y caracterización de contenidos

Una vez analizados y definidos los escenarios y dominios identificados, utilizaremos fuentes de información heterogéneas, tanto estructuradas como no estructuradas, para el desarrollo de esta parte. Las fuentes de información estructurada se basan en bases de datos institucionales y no institucionales existentes. En cuanto a las fuentes no estructuradas, se utilizará todo tipo de contenido digital como contenidos web, literatura médica, redes sociales, etc. Nos centraremos en los contenidos textuales sin descartar su vinculación con otro tipo de contenidos multimodales como imágenes, videos, emoticonos, etc. Asimismo, nos centraremos en el español, pero también se utilizarán fuentes de otros idiomas, considerando cada idioma como un canal más de comunicación. Además, trabajaremos con los comentarios e interacciones de las entidades digitales, lo que nos permitirá analizar la subjetividad y el impacto en la comunicación. Es importante destacar que tanto el contenido dañino como el beneficioso será caracterizado.