Audio AI · VAD · Evaluación de modelos
2025-2026Audio-Language Models for Voice Activity Detection
Esta investigación evalúa cómo los audio-language models detectan habla cuando el audio es corto, ruidoso, reverberante o filtrado. El proyecto compara Qwen2-Audio-7B, Qwen2-Audio-7B con LoRA, Qwen3-Omni-30B y Silero VAD sobre el mismo banco de pruebas degradadas. El mejor resultado fue Qwen2-Audio-7B con LoRA y OPRO-Template: 93,3% de balanced accuracy sobre 21.340 clips degradados.
