Dos investigadores del ICS, mentores del Google Summer of Code por tercer año consecutivo
Inés Olza y Cristóbal Pagán forman parte del consorcio internacional Red Hen Lab, institución participante en el programa global
FOTO: Manuel Castells
Inés Olza y Cristóbal Pagán, investigadores del Instituto Cultura y Sociedad (ICS) de la Universidad de Navarra, han participado este verano, por tercer año consecutivo, en el Google Summer of Code (GSoC). Han contribuido como mentores del consorcio internacional Red Hen Lab for the Study of Multimodal Communication, que agrupa a expertos de más de 15 universidades de diferentes países como EE. UU., España, Alemania, Brasil o Noruega.
Google Summer of Code es un programa global que otorga becas a jóvenes informáticos de todo el mundo para colaborar con instituciones, grupos de investigación y empresas dedicadas a desarrollar código para herramientas de software libre. Este año GSoC adjudicó 10 becas a codificadores internacionales para los proyectos de Red Hen, siete más de las que otorgó el primer año.
Los proyectos del Red Hen Lab consisten en desarrollar herramientas de tratamiento automático de texto (procesamiento de lenguaje natural), sonido e imagen que puedan incorporarse a su Biblioteca Internacional NewsScape de Noticias de Televisión.
En 2015, el enfoque de las becas GSoC-Red Hen fue el análisis de audio, mientras que en 2016 el proyecto se centró en el aprendizaje de máquinas dentro del campo de visión computacional. El objetivo de 2017 ha sido crear un sistema de procesamiento multimodal para extraer información sobre el comportamiento comunicativo humano a partir de texto, audio y vídeo.
NewsScape es un gigantesco corpus de lenguaje hablado, que permite estudiar todos los aspectos multimodales (gesto, prosodia, imágenes y sonidos que acompañan a la palabra, efectos de producción televisiva, etc.). Se trata, por tanto, de una herramienta sin precedentes que podría revolucionar el estudio de los discursos y de las coberturas informativas.
En la actualidad contiene unas 340.000 horas de noticias televisivas en inglés, español y otras lenguas europeas sobre las que pueden realizarse búsquedas automáticas. NewsScape permite, por ejemplo, comparar el tratamiento de un tema en distintos canales y programas buscando palabras clave en sus subtítulos.
Con respecto a la colección de noticias en español, constituye actualmente un recurso sin precedentes para el estudio del español hablado, con unas 6.000 horas de televisión y unos 40 millones de subtítulos sincronizados.