Estudiantes del Máster en Big Data Science de la Universidad comparten su experiencia en el Trabajo de Fin de Máster
El módulo final del Máster Universitario en Big Data Science se centra en desarrollar un proyecto que resuelva problemas reales presentados por empresas o instituciones con las que se tienen acuerdos de colaboración. Esto permite al estudiante obtener una experiencia práctica significativa en el campo de la ciencia de datos y big data.
Álvaro Carracedo, Jesús López y Jefferson Osorio forman parte de un equipo de estudiantes que están desarrollando su TFM con el responsable de Inteligencia Artificial y Datos en Telefónica.
“El Trabajo de Fin de Máster se centra en la evaluación comparativa de diversas tecnologías de Inteligencia Artificial generativa (GenAI) de imágenes, más específicamente los modelos de difusión. Este estudio busca identificar y seleccionar modelos, para luego definir y aplicar métricas cuantitativas y cualitativas que evalúen la calidad de las imágenes generadas.”
A través de la implementación de un entorno de pruebas y la realización de análisis comparativos, se pretende identificar las fortalezas y debilidades de cada modelo, culminando en conclusiones y recomendaciones sobre su eficacia y posibles mejoras.
Por su parte, Paula Sanjuan y María Simal llevan a cabo su TFM en la firma internacional de consultoría tecnológica NTT Data.
La narrativa clínica definida como el texto libre y detallado que los médicos redactan en las historias clínicas de los pacientes, es una fuente de información a menudo subutilizada. Estos registros pueden contener datos críticos para la investigación médica y la toma de decisiones clínicas, desde el entendimiento de enfermedades raras o desconocidas hasta la detección temprana de brotes sindrómicos. Sin embargo, el formato libre en el que se presentan estos textos dificulta su aprovechamiento, perdiéndose valiosa información en el proceso.
“Nuestro proyecto se centra en evaluar la validez y refinar modelos de lenguaje (LLMs) de código abierto, particularmente Mistral, para el reconocimiento de sintomatología en texto libre y la asignación de sus respectivos códigos según los estándares de la CIE-10. Esta tarea es crucial para convertir la narrativa clínica en datos estructurados y útiles. Para mejorar el rendimiento de estos modelos de IA Generativa, estamos explorando varias estrategias de refinamiento: Prompt Engineering, Retrieval-Augmented Generation (RAG) o Fine Tuning.”
Paula y María buscan transformar la forma en que se utiliza la narrativa clínica. “Al estructurar estos datos de manera efectiva, facilitamos su análisis y aprovechamiento, contribuyendo significativamente a la investigación médica y a la práctica clínica.”
Santiago Rosell, Data Scientist en BBVA y Giulio Brevi, EU Central Operations Forecasting Manager en Amazon están desarrollando un proyecto bajo la supervisión de BBVA.
El trabajo utiliza técnicas de back-testing para evaluar la precisión de los modelos de valoración de empresas, comparando el valor intrínseco de las acciones con su valor histórico de mercado.
“El objetivo de nuestro Trabajo de Fin de Máster es identificar patrones y tendencias para mejorar las valoraciones futuras y ayudar a los inversores a tomar decisiones más informadas. Este enfoque permite ajustar los modelos de valoración y optimizar portafolios de inversión, facilitando una gestión más eficiente y adaptativa a las condiciones del mercado”, indica Giulio.
Por otro lado, Pablo Legerén y Mario Lamas realizan su TFM desarrollando un proyecto en colaboración con EY Wavespace, Centro de Excelencia en innovación y transformación a través de la aplicación de la IA, la IA generativa y la analítica de datos, y que a su vez forma parte de una de las principales compañías de servicios profesionales del mundo. Su trabajo se centra en desarrollar un sistema de recomendación para la plataforma en línea Airbnb, integrando técnicas y conocimientos del Máster para resolver problemas complejos en Big Data.
“Iniciamos generando una base de datos mediante web scraping, un método que aprendimos en la asignatura Técnicas de Recogida de Datos. Luego, realizamos una limpieza exhaustiva del dataset, esencial para la calidad de los datos, utilizando habilidades de Preparación y Limpieza de Datos. Finalmente, empleamos técnicas de procesamiento de lenguaje natural (NLP) para enriquecer el dataset con información de comentarios de usuarios, mejorando la precisión del sistema de recomendación”, comenta Mario.
Finalmente, Paloma Duarte, analista en Mutua Madrileña, ha basado su trabajo en la predicción de la tasa de baja de clientes a través de técnicas de Machine Learning.
El proyecto tiene como objetivo identificar patrones y variables claves que influyen en la decisión de los clientes de cancelar sus pólizas. Esta predicción temprana permite anticiparse e implementar estrategias de retención personalizadas y eficientes, mejorando así la fidelidad del cliente y la sostenibilidad del negocio.
“Los procedimientos aprendidos en la asignatura Limpieza y Preparación de Datos, como la detección y eliminación de outliers, la imputación de valores faltantes y la transformación de variables, han sido cruciales para garantizar la calidad y la integridad de los datos, lo que a su vez mejora la precisión y la fiabilidad del modelo predictivo”, comenta Paloma.