Módulos de trabajo

Módulo 4. Diseño de métodos y algoritmos

Este módulo es el más extenso que propone el proyecto, ya que incorpora las tareas con mayor carga de investigación. Tras el análisis detallado de los dominios, escenarios, técnicas actuales, fuentes de información, así como los desafíos específicos a resolver, en este módulo identificaremos las respuestas esperadas a futuras soluciones. El módulo explorará nuevos métodos y técnicas que rompen el estado del arte y que supongan un avance en la búsqueda de soluciones a los problemas señalados. Para modelar el contenido digital, toda la información relacionada con el contexto donde se produce y consume este contenido es relevante: su contenido textual, los perfiles de las entidades digitales involucradas en el intercambio de información, la estructura de red mantenida por estas entidades. Esto requiere un enfoque novedoso para la construcción de modelos, que deben lidiar con características heterogéneas (texto, estructura de red, evolución temporal, características adicionales presentes…). Desde la ingeniería de funciones hasta las soluciones integrales, la realidad holística de los contenidos digitales debe ser considerada en la búsqueda de modelos que permitan procesos de inferencia (clasificación y toma de decisiones) en la detección tanto de contenido beneficio (discurso de esperanza y contenido seguro) como malicioso. (discurso de odio y noticias falsas).

Hitos propuestos

  • Identificación de características heterogéneas relevantes y estudio de la aplicación de métodos de extracción, selección y transformación de estas características.
  • Modelado del lenguaje basado en las características anteriores.
  • Estudio y diseño de la representación más adecuada para modelar el contenido.
  • Revisión del estado del arte en métodos de aprendizaje supervisado y semi-supervisado, aplicado a la generación de modelos de inferencia.
  • Estudio y diseño de métodos y estrategias para mitigar sesgos en técnicas de machine learning.
  • Estudio y diseño de métodos y recursos para la predicción de mutaciones y viralización de contenidos.

Entregables

  • Informe con las características heterogéneas relevantes y métodos de aplicación.
  • Representación del modelado del lenguaje.
  • Gráficos de conocimiento y GNN, derivados del modelado de contenido.
  • Informe sobre los métodos de aprendizaje supervisado y semi-supervisado más adecuados.
  • Informe sobre los métodos y estrategias para mitigar el sesgo en las técnicas de machine learning.
  • Informe sobre los métodos y recursos para la predicción de mutaciones y viralización de contenidos.

Tarea 4.1 Métodos de extracción, selección y transformación de características

Esta tarea se encargará de determinar cuáles son las características heterogéneas más relevantes para utilizar en el modelado, teniendo en cuenta que el objetivo es extraer la semántica de alto nivel asociada al contenido, caracterizando las relaciones entre entidades digitales en diferentes aspectos tales como contradicción, congruencia, polarización, sesgo, emociones, ironía, etc. Las características pueden tener diversos formatos y orígenes. En concreto, tenemos tres fuentes principales de datos: redes sociales, bases de conocimiento y corpus de datos disponibles o generados, y de estas fuentes seleccionaremos y filtraremos según el escenario en estudio. Así, por ejemplo, en el caso del análisis de noticias falsas, redes como Twitter y  la prensa online se pueden considerar fuentes de información, pero también lo son los corpus de noticias y las bases de conocimiento geográficas y fácticas. En el caso del discurso del odio, la búsqueda de contenidos tóxicos se puede enmarcar a una comunidad específica por temas (racismo, violencia de género, bullying) o por edad (redes más utilizadas por los adolescentes, como TikTok, Twitch o Instagram). En otras palabras, la contextualización del escenario específico sirve como premisa para la selección de fuentes de información y extracción de características (información del perfil, mensajes, marcas de tiempo, estructura de red…). De las características extraídas, aquellas que se consideren determinantes en la resolución de un determinado problema serán ser seleccionadas, y en algunos casos será necesario transformarlas para la finalidad que están aplicadas.

Tarea 4.2 Métodos para el modelado de contenido a partir de características heterogéneas

Una vez extraídas, seleccionadas y transformadas estas características heterogéneas, el objetivo de esta tarea es modelar el contenido de los modelos de lenguaje, que tienen en cuenta las características lingüísticas de los diferentes dominios y escenarios. En este caso, características de todos los niveles (léxico, sintáctico, semántico, discursivo y pragmático) serán tenidas en cuenta. Los métodos actuales de análisis de contenido digital apuntan a una integración de datos de diversa naturaleza (mensaje de texto, texto asociado a una imagen, estructura de red, datos de usuario, léxicos y ontologías especializadas…) para enriquecer las características disponibles en los algoritmos de machine learning. Por un lado, la estructura de la red o la evolución temporal son claves para la detección de bulos; por otro lado, el género del receptor de un mensaje, su edad y detalles de su perfil ayudan en la detección de mensajes ofensivos. Además, el tipo de contenido multimedia, los enlaces, la diversidad léxica o la forma en la que se propaga el contenido a través de la red facilitan el descubrimiento de contenidos constructivos. Así, la heterogeneidad del contenido determina su semántica.

Tarea 4.3 Métodos para la generación de conocimiento

La generación de conocimiento requiere organizar, normalizar, tabular y categorizar grandes cantidades de datos para generar información adicional. El conocimiento generado a menudo requiere un tamaño considerable de datos, a veces compuesto de varias fuentes, por ejemplo: publicaciones, patentes, recursos web como foros, redes sociales redes, etc. El descubrimiento de conocimiento puede estar asociado con un contexto específico (por ejemplo, puede hacer uso de lenguajes controlados u ontologías de un dominio dado). Por lo tanto, la generación de conocimiento debe enfrentar tanto cuestiones cuantitativas, por el volumen de datos, y cualitativas, por el necesario procesamiento de datos. Una vez generado, proporciona conocimiento del dominio que se puede convertir, por ejemplo, en un sistema basado en reglas u otros motores de inferencia basados en machine learning. En el ámbito de la propuesta presente, esta tarea se encargará de llevar a cabo la integración de todos estos modelos en un formalismo homogéneo a partir de los diferentes modelos digitales obtenidos, de modo que a dichos modelos se pueda acceder de manera uniforme y se manipulen de manera eficiente. Tal es el caso de la generación de grafos de conocimiento, ontologías o bases de datos, derivados del modelado de contenidos.

Tarea 4.4 Métodos de aprendizaje para la generación de modelos de inferencia automatizada, interpretable y explicable.

Esta tarea define el conjunto de algoritmos utilizados para la integración de los resultados inferidos a partir de los bases de conocimiento. Un pilar clave de la generación de conocimiento es cómo representar este conocimiento una vez obtenido, para que pueda ser utilizado de manera conveniente y en diferentes contextos. Para que esto ocurra, es necesario relacionar datos mediante la asociación de atributos y características, lo que da como resultado un modelo de datos con suficiente capacidad expresiva para representar el conocimiento obtenido, siendo computacionalmente manejable. Así, una vez que el formalismo o formalismos para la representación del conocimiento (gráficos de conocimiento, ontologías, bases de datos,…) se han establecido, es necesario definir el conjunto de algoritmos que permitan hacer inferencias a partir de ellos y, por tanto, descubrir nuevos conocimientos. Particularmente relevantes en el contexto de la propuesta actual son los grafos de conocimiento basados en Redes, GNN o Graph Neural Network. Una GNN es una red neuronal que se puede aplicar directamente a gráficos. Proporciona un formalismo que es particularmente adecuado para tareas de predicción. Por ejemplo, dada la configuración, un GNN puede predecir el arco que es más probable que se agregue al gráfico. Este tipo de inferencia requiere un uso intensivo de técnicas de machine learning, en particular aquellas arraigadas a redes neuronales y deep learning. Por lo tanto, el objetivo de esta tarea es determinar algoritmos de machine learning supervisados (en el caso del aprendizaje clásico) o semi-supervisados (para modelos end-to-end pre-entrenados en grandes conjuntos de datos). En este último caso, un análisis de idoneidad para cada escenario (detección de contenidos beneficiosos y maliciosos) de las técnicas de fine tuning es obligatorio para diseñar los modelos finales adaptados a cada problema. Además, para hacer frente a la opacidad o falta de transparencia de los algoritmos de machine learning, se estudiarán y aplicarán técnicas apropiadas de explicabilidad e interpretabilidad para cada escenario y así comprender las decisiones que toman los modelos y saber si están sesgadas o no al hacer predicciones. También, la topología de los GNN puede ser particularmente útil, ya que esto es una consecuencia directa de la semántica del problema que se modela y, por lo tanto, puede ayudar a interpretar los resultados obtenidos de la red, según la semántica de los nodos y arcos que participan en la predicción de la solución.

Tarea 4.5 Estudio de métodos y estrategias para mitigar sesgos en técnicas de aprendizaje automático

Los sistemas desarrollados sobre modelos sesgados pueden conducir al trato discriminatorio de ciertos grupos y cada vez se requiere más un sistema capaz de evaluar la neutralidad del algoritmo o modelo. Para resolver problemas justamente, esta tarea facilita el acceso a métricas de evaluación de sesgos y algoritmos de mitigación, siendo por tanto una tarea muy relevante. Como resultado, esperamos obtener herramientas que estén disponibles públicamente para su uso por parte de la comunidad científica, lo que ayudaría a fomentar la resolución de problemas de machine learning de una manera más equitativa.

Tarea 4.6 Predicción de la difusión y evolución del contenido

En esta tarea el objetivo es predecir la red de influencia entre entidades digitales, sus relaciones y el contenido digital, que determina el «comportamiento viral» y las mutaciones de dicho contenido. Se aplicarán varias teorías, modelos y técnicas, de manera que seamos capaces de determinar patrones de comportamiento que hagan que la información se vuelva viral. Es aquí donde se encuentra la estructura de la red de información (red de entidades donde se propaga el contenido) y la información temporal que son de mayor interés.