Montevideo, Uruguay · IA de audio · Escucha computacional · MIR

Gabriel Bibbó

Ingeniero de investigación en IA de audio

Construyo sistemas de aprendizaje automático de audio que funcionan fuera del entorno de notebook, en detección de eventos sonoros, detección de actividad de voz, audio con preservación de privacidad y recuperación de información musical. Cuatro años programando C/C++ embebido para productos de Bang & Olufsen me enseñaron la distancia entre un prototipo y un dispositivo que llega a producción. También soy DJ y productor, y buena parte de mi interés por cómo escuchan las máquinas nació de cómo escucho yo.

Ver proyectos LinkedIn Escribime

Proyectos

Sistemas de investigación, conjuntos de datos, demostraciones y herramientas de tecnología musical.

Primero el trabajo revisado por pares; después, sistemas independientes y proyectos técnicos personales.

IA de audio · VAD · Evaluación de modelos

2025-2026

Audio-Language Models for Voice Activity Detection

Esta investigación evalúa cómo los modelos audio lenguaje detectan habla cuando el audio es corto, ruidoso, reverberante o filtrado. El proyecto compara Qwen2-Audio-7B, Qwen2-Audio-7B con LoRA, Qwen3-Omni-30B y Silero VAD sobre el mismo banco de pruebas degradadas. El mejor resultado fue Qwen2-Audio-7B con LoRA y OPRO-Template: 93,3% de exactitud balanceada sobre 21.340 fragmentos degradados.

VADQwenLoRAOPROSileroPyTorch

Código

Conjunto de datos con preservación de privacidad · Audio doméstico

2024

Sounds of Home Dataset

Sounds of Home es un conjunto de datos residencial para detección de eventos sonoros. Contiene 1.344 grabaciones de una hora tomadas en 8 hogares de Bélgica, con grabadoras AudioMoth colocadas en salas de estar y cocinas. El habla fue eliminada antes de la publicación y se incluyeron predicciones de PANNs para las tramas de audio.

SEDPrivacidadAudioMothPANNsConjuntos de datos

Sitio oficial Artículo

Privacidad · Eliminación de habla · WASPAA

2025

Speech Removal Framework

Sistema para eliminar habla de grabaciones de audio antes de compartirlas o publicarlas. Permite flujos de publicación de audio con preservación de privacidad, manteniendo información acústica no verbal útil para investigación en detección de eventos sonoros.

Eliminación de hablaPrivacidadWASPAA

Demo DOI

MIR · Mezcla armónica · Tesis de maestría

2021-2022

Harmonic EDM Mixing Compatibility

Este sistema de análisis musical estima qué tan bien pueden mezclarse armónicamente dos pistas de EDM. Analiza pistas, calcula características de croma, las convierte en vectores de intervalo tonal, compara compatibilidad armónica y sugiere transposiciones de altura que pueden mejorar una mezcla. El trabajo comenzó como tesis de maestría y luego se publicó en ICWE 2022.

MIREDMChromaTIVEssentialibrosa

Código Artículo

Mejora de habla · Plataforma de servidor

2026

ASR Enhancement Platform

ASR Enhancement Platform compara dos rutas de reconocimiento de voz sobre el mismo audio: transcripción directa y mejora seguida de transcripción. El servidor guarda trabajos, archivos de audio, transcripciones y respuestas de proveedores para poder inspeccionar cada resultado. Usa FastAPI, Celery, PostgreSQL, Redis, MinIO, Docker Compose, métricas, trazabilidad, Grafana e integración continua.

ASRFastAPICeleryDockerPostgreSQLRedis

Código

MIR · Organización de librería DJ

2026

Traktor ML

Traktor ML convierte una librería local de Techno y Tech House en listas de reproducción listas para Traktor. El flujo de trabajo extrae representaciones MERT, separa stems con Demucs, lee BPM y tonalidad con Essentia, agrupa pistas similares, las ordena para lograr transiciones más suaves y exporta listas M3U. La corrida V4 procesó 239 pistas y exportó 14 listas de reproducción. La colección privada de audio no está incluida en el repositorio.

MERTDemucsEssentiaHDBSCANUMAPStreamlit

Código

ALPACA

2026

Plataforma de compraventa algorítmica en Python con ingesta de datos de mercado, controles de riesgo, pruebas retrospectivas y monitoreo en tiempo real.

PythonPruebas retrospectivasMonitoreo

Código

Raspberry Pi Sound Event Recognition Demo

2023

Demostración en Raspberry Pi para reconocimiento de eventos sonoros en tiempo real. El sistema ejecuta redes neuronales preentrenadas en un dispositivo de bajo costo, expone una interfaz web y puede enviar notificaciones por correo electrónico cuando detecta eventos seleccionados de AudioSet.

Raspberry PiIA en dispositivo de bordeAudioSet

Código Video

3H-ATO

2020-2022

Herramienta mecánica diseñada durante la pandemia para evitar tocar directamente superficies compartidas. Es un proyecto de prototipado físico, no un proyecto de IA.

Diseño de productoPrototipado

Video

Automatic IoT Soap Dispenser

2020-2021

Dispositivo IoT de higiene de manos para entornos industriales. Usaba acero inoxidable, WiFi, conectividad en la nube, sensores IR/RFID y un tanque de 3 litros.

IoTSensoresHigiene industrial

UyVoy Mobile App

2020

Proyecto de aplicación móvil para reservar turnos y reducir aglomeraciones durante la pandemia. Mi rol figura como gestor de proyecto.

Aplicación móvilTecnología cívicaGestión de proyectos

Investigación / Publicaciones

Publicaciones y trabajos, ordenados por año.

2025

Privacy for Audio AI: Risks, Challenges, and Emerging Solutions in the Era of Audio AI [Panel discussion]

Thomas Deacon; Jennifer Williams; Jason R. C. Nurse; Christopher Hicks; Gabriel Bibbó; Arshdeep Singh; Mark D. Plumbley

2025 AES International Conference on Artificial Intelligence and Machine Learning for Audio

Identificador Programa AES

Speech Removal Framework for Privacy-preserving Audio Recordings

Gabriel Bibbó; Arshdeep Singh; Thomas Deacon; Mark D. Plumbley

2025 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA), Tahoe City, CA, octubre 2025

DOI Demo

Room Acoustics and Microphone Characteristics Show Systematic Impact on Sound Event Recognition

Gabriel Bibbó; Craig Cieciura; Mark D. Plumbley

Proceedings of the 54th International Congress and Exposition on Noise Control Engineering, São Paulo, Brazil, agosto 2025

ISBN

Integrating IP broadcasting with audio tags: Workflow and challenges

Rhys Burchett-Vass; Arshdeep Singh; Gabriel Bibbó; Mark D. Plumbley

2025 AES International Conference on Artificial Intelligence and Machine Learning for Audio

Repositorio institucional Preprint

Soundscape Experience Mapping: A Deep Listening Approach for Eliciting Older Adults' Perceptions of Indoor Soundscapes

Thomas Deacon; Gabriel Bibbó; Arshdeep Singh; Mark D. Plumbley

Forum Acusticum / Euronoise 2025, Málaga, España, junio 2025

Enlace

Personalized Live Sound Recognition Using Efficient PANNs [Show and Tell]

Arshdeep Singh; Gabriel Bibbó; Haohe Liu; Thomas Deacon; Mark D. Plumbley

IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP 2025), Hyderabad, India, abril 2025

Enlace

2024

Environmental sound classification on an embedded hardware platform

Gabriel Bibbó; Arshdeep Singh; Mark D. Plumbley

INTER-NOISE and NOISE-CON Congress and Conference Proceedings, Nantes, France, agosto 2024

DOI

The Sounds of Home: A Speech-Removed Residential Audio Dataset for Sound Event Detection

Gabriel Bibbó; Thomas Deacon; Arshdeep Singh; Mark D. Plumbley

8th International Workshop on Speech Processing in Everyday Environments (CHiME 2024), Kos Island, Grecia, septiembre 2024

DOI Sitio del dataset

Soundscape Personalisation at Work: Designing AI-Enabled Sound Technologies for the Workplace

Thomas Deacon; Gabriel Bibbó; Arshdeep Singh; Mark D. Plumbley

International Conference on Sound and Music Computing (SMC 2024), Porto, Portugal, julio 2024

Artículo

2023

Recognise and Notify Sound Events Using a Raspberry PI Based Standalone Device [Demo]

Gabriel Bibbó; Arshdeep Singh; Mark D. Plumbley

IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA 2023), New York, Estados Unidos, octubre 2023

DOI Video

2022

A New Compatibility Measure for Harmonic EDM Mixing

Gabriel Bibbó; Ángel Faraldo

International Conference on Web Engineering (ICWE 2022), Bari, Italia, julio 2022

DOI

2021

Towards a New Compatibility Measure for Harmonic EDM Mixing

Gabriel Bibbó

Tesis de máster, Universitat Pompeu Fabra, Barcelona, España, 2021. Tutor: Ángel Faraldo.

Repositorio

2017

Autonomous Mobile Robots Communicated by Software Defined Radio

Gabriel Bibbó; Mariana Gelós; Martín Randall

Tesis de grado, Universidad de la República, Montevideo, Uruguay, 2017. Tutores: Pablo Belzarena y Federico Larroca.

Publicación

Experiencia

Experiencia laboral.

Jun.2026-Presente

Ingeniero de ML/DSP

Edge Audio Labs, Montevideo, Uruguay (híbrido)

Aplicación de aprendizaje automático, procesamiento digital de señales, pruebas y evaluación perceptual en dos líneas confidenciales de productos de audio, sin revelar clientes ni identidades de proyecto.
Diseño y entrega de una funcionalidad del lado del renderizado que mapea dinámicas de partitura a expresión tímbrica del modelo, en lugar de limitarse a ganancia posterior al renderizado, después de reconstruir el flujo de audio completo e identificar una falla oculta en la ruta de control.
Construcción de herramientas de medición y pruebas de escucha sobre aproximadamente 580 renderizados y una evaluación ciega de 48 fragmentos, seguida de entrega de la funcionalidad del lado del servidor sin reentrenar el modelo.
Construcción de un flujo de evaluación C++ sin interfaz para detección de notas y ataques en tiempo real, desde entradas WAV y MIDI hasta el DSP de producción, métricas JSON, pruebas de regresión y casos canarios adversariales.
Detección y corrección de un desplazamiento sistemático de ataques de aproximadamente 104 ms, mejora de la lógica de protección del detector y comunicación de resultados mediante documentación técnica, pull requests, Jira y presentaciones para cliente.

Feb.2026-Mar.2026

Doctorando

TU Delft, Delft, Países Bajos

Trabajo en análisis de audio con preservación de privacidad para paisajes sonoros de unidades de cuidados intensivos pediátricos dentro del programa de investigación Auditory Footprints.
Construcción de un conjunto de datos reproducible de habla y no habla, y de un flujo de evaluación comparativa de VAD para audio similar al de una unidad pediátrica, con etiquetado conservador y trazabilidad por fragmento.

Dic.2025-Presente

Colaboración independiente de investigación

Colaboradores de la University of Surrey, remoto

Preparación del manuscrito “A Psychometric Evaluation of Audio-Language Models for Robust Voice Activity Detection” para Elsevier Computer Speech & Language con Mark D. Plumbley y Simone Spagnol.
Coautoría de trabajos con Arshdeep Singh y Mark D. Plumbley sobre audio con preservación de privacidad y escucha computacional.

Nov.2022-Nov.2025

Ingeniero de investigación en sensado sonoro

University of Surrey, Guildford, Reino Unido

Desarrollo de sistemas de aprendizaje automático de audio de extremo a extremo para entornos inteligentes reales, cubriendo preparación de datos, evaluación de modelos, despliegue de prototipos, publicaciones de código abierto, demostraciones, conjuntos de datos y documentación técnica.
Construcción de flujos SED con preservación de privacidad para grabaciones sensibles en hogares, incluyendo un conjunto de datos residencial de 197 GB, flujos de eliminación de habla y recursos reproducibles de evaluación.
Construcción de un banco de pruebas VAD de ocho modelos sobre CHiME-Home y, en paralelo, evaluación de modelos audio lenguaje bajo degradaciones controladas de duración, ruido, reverberación y filtrado espectral.
Despliegue de inferencia CNN en tiempo real en Raspberry Pi, incluyendo latencia, temperatura, eficiencia y evaluación de robustez para sensado sonoro en dispositivos de borde.
Publicación y presentación de investigación en ICASSP, IEEE WASPAA, CHiME Workshop, Inter-Noise, SMC, UKAI, UKIS y AES. Supervisión de proyectos de grado y máster.

Mar.2022-Nov.2022

Ingeniero de soporte técnico, Google Workspace

Webhelp, Barcelona, España

Soporte Tier 3 para clientes empresariales de Google Workspace en APIs, OAuth, SAML/SSO, IAM, aprovisionamiento de usuarios, migración de datos, configuración de DNS/dominios y ajustes de seguridad/cumplimiento normativo.

Nov.2021-Mar.2022

Auditor de IT

KPMG, Barcelona, España

Soporte a empresas de telecomunicaciones y departamentos de IT en trabajos de auditoría tecnológica.

Ago.2016-Dic.2019

Ingeniero de I+D

Ikatu, Montevideo, Uruguay

Diseño y entrega de firmware de audio e IoT en C/C++ embebido para productos de automatización del hogar de Bang & Olufsen, incluyendo controladores de bajo nivel, integración de hardware, entrada/salida de audio y conectividad a Internet.
Trabajo a lo largo del ciclo de vida del producto: requerimientos, arquitectura, implementación, pruebas, validación y documentación orientada a cliente.
Capacitación e incorporación de nuevos programadores en prácticas de desarrollo embebido.

Abr.2016-Jul.2016

Pasante de ingeniería

Ikatu, Montevideo, Uruguay

Desarrollo y coordinación de un proyecto completo de automatización del hogar antes de pasar al rol de Ingeniero de I+D.

Formación académica

Estudios formales.

2020-2021

MSc Sound and Music Computing

Universitat Pompeu Fabra, Barcelona, España

Tesis de máster sobre compatibilidad armónica para mezcla EDM. Calificación final de tesis: 9/10.

2012-2017

BSc en Ingeniería Eléctrica

Universidad de la República, Montevideo, Uruguay

Tesis de grado sobre robots móviles autónomos comunicados mediante radio definida por software.

Stack técnico

Herramientas y métodos usados en investigación, software, audio y despliegue.

Stack

PythonC/C++PyTorchHugging FacePEFTTorchAudiolibrosaEssentiamidoscikit-learnpandasNumPySciPyFlaskFastAPIStreamlitDockerGitLinux CLIBashSlurmRedisPrometheusGrafanaPostgreSQLSQLiteMATLABUnreal Engine 5.4FMODVS Code

ML

CNNsTransformersModelos audio lenguajeAjuste fino con LoRACuantización de 4 bitsAprendizaje supervisado y autosupervisadoFlujos de evaluaciónPruebas estadísticasDespliegue en dispositivos de borde

Audio

Detección de eventos sonorosDetección de actividad de vozDetección de altura y ataquesRecuperación de información musicalProcesamiento digital de señalesAudio en tiempo realEvaluación perceptualEstaciones de audio digital (DAW)AbletonDJProducción de música electrónica

Práctica

Flujos ML reproduciblesPruebas automatizadas de audioCuraduría de conjuntos de datosDesarrollo de código abiertoPrácticas MLOpsDesarrollo asistido por IAEscritura técnicaColaboración interdisciplinaria

Información adicional

Idiomas, certificaciones, membresías y financiación de investigación.

Idiomas

Español: nativoInglés: C1Portugués: A2

Certificaciones

PRINCE2 FoundationDeep Learning SpecializationMachine Learning, Stanford / Coursera

Música y membresías

Escuela de música: Virgilio Scarabelli AlbertiMiembro de IEEE Signal Processing Society

Financiación de investigación

Participante en EPSRC AI for Sound

Contacto

Hablemos.

Ciudadano italiano con autorización de trabajo en la UE. Abierto a roles remotos en LATAM/Europa y a oportunidades seleccionadas de relocalización dentro de la UE.

Correo: gabobibbo@gmail.com

Escribime LinkedIn

GitHub Scholar ORCID