Módulos de trabajo

Módulo 3. Creación de recursos

Para el desarrollo y la exploración de técnicas con el fin de abordar los retos planteados en el proyecto, es imprescindible disponer de datos, lo que requiere no sólo la extracción y compilación de información sobre los escenarios en estudio, sino también la curación, anotación y enriquecimiento de esta información para obtener datos de calidad.

Hitos propuestos

  • Estudio y selección de técnicas de recogida de datos.
  • Análisis y selección de herramientas de limpieza y filtrado de datos.
  • Definición de pautas de anotación adecuadas a la fuente, el dominio y la tarea en estudio.
  • Implementación de técnicas de extracción de datos.
  • Implementación de técnicas de curación de datos.
  • Construcción de conjuntos de datos anotados a partir de la información extraída, compilada y seleccionada utilizando las guías de anotación definidas.

Entregables

  • Guías de anotación disponibles para la comunidad científica con el fin de facilitar la notación de otros conjuntos de datos.
  • Conjuntos de datos de contenido digital de diferentes fuentes de información.
  • Repositorio que compile las guías de anotación y los conjuntos de datos generados para cada dominio.

Tarea 3.1 Extracción y compilación

La recopilación y el almacenamiento de información es fundamental para un desarrollo práctico de soluciones de inteligencia artificial. Los datos juegan un papel muy importante en este proyecto, ya que son la base para estudiar la dinámica del contenido digital intercambiado entre entidades. Esta tarea tiene como objetivo extraer información sobre los escenarios identificados de varias fuentes de datos, como redes sociales, periódicos, foros, informes médicos, entre otros. Para ello, se estudiarán las técnicas de recogida de datos más adecuadas y seleccionadas para cada fuente y dominio, con el fin de garantizar que los datos recopilados sean precisos.

Tarea 3.2 Curación de datos

De acuerdo con las actividades programadas en la tarea 4.1, se prevee obtener contenidos digitales de diferentes fuentes de información. Estos contenidos deben ser filtrados para obtener con precisión la información necesaria, eliminando aquellos contenidos que no ofrezcan los niveles de calidad adecuados al proyecto. Por otro lado, es necesario realizar actividades de limpieza de datos en las que se incluyan caracteres y anotaciones. Se eliminarán las estructuras que no proporcionan información útil. Un ejemplo de esto es recuperar información de páginas web, donde es necesario eliminar etiquetas de anotación HTML u otros elementos que dificultan la lectura humana sin la intervención de programas de interpretación como  navegadores web (es decir, Chrome, Mozilla, etc.). Por último, es necesario asegurarse de que los contenidos recuperados mantengan una cierta coherencia y que, independientemente de la forma en la que se encuentre digitalizado en la fuente original, al almacenarlo en su estructura final debe responder a un orden, estructura, formato y condiciones de acceso que faciliten el uso de los programas informáticos para recuperar su contenido en procesos posteriores de PLN.

Tarea 3.3 Anotación y enriquecimiento

Las técnicas de machine learning se han convertido en una de las estrategias fundamentales en cualquier proceso de modelado de lenguaje natural, también en los casos de procesamiento automático de contenido. A través de estas técnicas, los algoritmos permiten que las computadoras aprendan de la experiencia. Esta experiencia se materializa en datos de entrenamiento (conjuntos de datos), que en el caso de aprendizaje supervisado requieren anotación previa. El éxito de las predicciones realizadas por el modelo de lenguaje depende directamente de la calidad y el tamaño de nuestros datos de entrenamiento, especialmente cuando se usan en algoritmos de deep learning. Una de las ventajas más relevantes de este tipo de algoritmos es que no necesitan un diseño de características a priori. Sin embargo, esta propiedad los hace dependientes de conjuntos de datos más grandes que los algoritmos tradicionales de machine learning. En esta tarea nos centraremos en la construcción de conjuntos de datos anotados con características semánticas avanzadas extraídas de colecciones de recursos previamente extraídos, compilados y seleccionados. Esto se hará con herramientas para acceder a otros recursos avanzados como bases de datos abiertas y otros recursos reutilizables y redistribuibles recopiladores de información, así como herramientas de anotación específicas para los diferentes casos de uso. Además, la calidad de los recursos se asegurará mediante el desarrollo de anotaciones específicas de las directrices del problema y de las métricas de calidad de las anotaciones. Además, debido a la dificultad de determinar ciertos tipos de anotación, en muchos casos  de compleja la caracterización incluso realizada por expertos humanos, se investigará sobre la generación de conjuntos de datos de forma semiautomática, por lo que la creación de corpus reduce considerablemente el costo y el aumento de ejemplos de capacitación mejora la precisión de los métodos de machine learning y deep learning.