Dos investigadores de la Universidad, mentores de jóvenes informáticos en el Google Summer of Code
La red internacional de investigación Red Hen Lab, a la que pertenecen Inés Olza y Cristóbal Pagán, fue una de las instituciones participantes en este programa global
Inés Olza y Cristóbal Pagán, investigadores del Instituto Cultura y Sociedad (ICS) de la Universidad de Navarra, han participado este verano en el Google Summer of Code. Estuvieron presentes como miembros del consorcio internacional Red Hen Lab for the Study of Multimodal Comunication, que agrupa a expertos de más de 15 universidades de diferentes países como EE. UU., España, Alemania, Brasil o Noruega.
En concreto, Olza y Pagán, del proyecto ‘Discurso público' del ICS, contribuyeron a supervisar el proyecto de la desarrolladora rusa Ekaterina Ageeva, destinado a detectar y etiquetar automáticamente expresiones lingüísticas multiverbales. Además de ella, otros cuatro jóvenes colaboraron con Red Hen Lab en proyectos que también enlazan las humanidades digitales, la lingüística computacional y el desarrollo de herramientas de libre acceso.
Google Summer of Code es un programa global que otorga becas a jóvenes informáticos de todo el mundo para colaborar con instituciones, grupos de investigación y empresas dedicadas a desarrollar código para herramientas de software libre. Las instituciones mentoras seleccionadas por el Google Summer of Code presentan varios proyectos de trabajo a los que los jóvenes informáticos pueden incorporarse.
Newscape, la gran biblioteca de noticias de televisiónLos proyectos de Red Hen Lab consistían en desarrollar herramientas de tratamiento automático de texto (procesamiento de lenguaje natural), sonido e imagen que pudieran incorporarse a su Biblioteca Internacional NewsScape de Noticias de Televisión.
Esta base de datos es un gigantesco corpus de lenguaje hablado, que permite estudiar todos los aspectos multimodales (gesto, prosodia, imágenes y sonidos que acompañan a la palabra, efectos de producción televisiva, etc.). Se trata, por tanto, de una herramienta sin precedentes que podría revolucionar el estudio de los discursos y de las coberturas informativas.
En la actualidad contiene más de 250.000 horas de noticias televisivas en inglés, español y otras lenguas europeas sobre las que pueden realizarse búsquedas automáticas. NewsScape permite, por ejemplo, comparar el tratamiento de un tema en distintos canales y programas buscando palabras clave en sus subtítulos.
Con respecto a la colección de noticias en español, constituye actualmente el mayor recurso existente para el estudio del español hablado, con unas 6.000 horas de televisión y unos 40 millones de subtítulos sincronizados.