jueves. 04.06.2026
BIOMÉTRICA

La IA clona voces un 20% más inteligibles que las humanas

Investigadores del University College London y la Universidad de Roehampton descubren que los clones de voz generados por IA superan en claridad a las voces reales incluso en entornos ruidosos, con resultados que contradicen todas sus hipótesis iniciales.

Un hombre hablando a un micrófono
Un hombre hablando a un micrófono

Los clones de voz creados mediante inteligencia artificial son hasta un 20% más fáciles de entender que las voces humanas reales en condiciones de ruido ambiental. Es la conclusión principal de un estudio publicado en la revista 'JASA', editada por AIP Publishing en nombre de la Acoustical Society of America, y firmado por los investigadores Patti Adank y Han Wang, del University College London y la Universidad de Roehampton, ambas instituciones con sede en el Reino Unido.

El hallazgo invierte por completo la hipótesis de partida de los propios autores, que esperaban encontrar exactamente lo contrario: que las voces sintéticas resultarían menos comprensibles por resultar desconocidas para los oyentes. Lo que encontraron fue una ventaja sistemática y consistente a favor de los clones, que se mantuvo en todos los experimentos de validación posteriores.

Una tecnología que ya convive con nosotros

Las voces sintéticas llevan años integradas en la vida cotidiana. Siri, Alexa y los sistemas de atención telefónica automatizada son los ejemplos más extendidos. Sin embargo, la irrupción de la IA generativa ha dado lugar a una categoría distinta y más sofisticada: los clones de voz, capaces de reproducir con precisión la voz de una persona real a partir de tan solo 10 segundos de grabación.

Esta diferencia es fundamental. Los sistemas sintéticos tradicionales requieren que actores de voz profesionales graben durante horas en estudio para construir una base de datos fonética suficiente. Los clones de voz, en cambio, operan con una muestra mínima, lo que multiplica exponencialmente el número de voces replicables y el rango de aplicaciones posibles: desde asistentes personalizados hasta herramientas de accesibilidad, pasando por sistemas de comunicación en entornos industriales o sanitarios.

El experimento y sus resultados

Adank y Wang presentaron a un grupo de voluntarios —en origen, de perfil británico— una serie de voces humanas y clonadas, y les pidieron que valoraran su inteligibilidad. Los clones resultaron sistemáticamente mejor puntuados. Lejos de dar el experimento por concluido, los investigadores replicaron la prueba en tres escenarios adicionales para comprobar si el efecto se mantenía:

Con voluntarios de edad avanzada, para evaluar si la pérdida auditiva alteraba el resultado. Con voluntarios estadounidenses, para determinar si el acento introducía alguna variable. Con un filtro diseñado para simular implantes cocleares, recreando las condiciones auditivas de personas con esta prótesis.

En los tres casos, las voces clonadas mantuvieron su ventaja. El efecto no es, por tanto, ni puntual ni dependiente del perfil del oyente.

La pregunta sin respuesta: por qué ocurre

Más allá del qué, lo que Adank y su equipo no han logrado resolver todavía es el por qué. Tras analizar más de 100 mediciones acústicas en busca de la variable que explique la mayor inteligibilidad de los clones, los investigadores no han encontrado una respuesta definitiva.

"Al principio pensé que las voces clonadas serían menos inteligibles por ser desconocidas", reconoce Adank. "Descubrí que eran hasta un 20% más inteligibles, lo cual fue bastante sorprendente. Una pequeña parte de nuestro artículo trata sobre ese experimento, y la mayor parte consiste en que mi colaborador y yo intentamos desesperadamente averiguar qué es lo que hace que esas voces clonadas sean más inteligibles".

La hipótesis de trabajo para la siguiente fase apunta a los propios mecanismos técnicos de los sintetizadores. "Ahora vamos a intentar recrear [el efecto] estudiando cómo funcionan los sintetizadores y cómo utilizan el procesamiento digital de señales para generar esas voces, simplemente para comprender mejor este proceso", concluye la investigadora.

Implicaciones para la industria tecnológica

Los resultados tienen implicaciones directas para el desarrollo de productos de voz sintética. Si los clones generados por IA no solo son más baratos y rápidos de producir que las voces sintéticas tradicionales, sino también más comprensibles para el oyente, el argumento técnico y comercial a favor de su adopción masiva se refuerza considerablemente.

El campo de aplicaciones potenciales es amplio: sistemas de accesibilidad para personas con discapacidad visual o auditiva, plataformas de atención al cliente automatizadas, asistentes de navegación, herramientas de formación y e-learning o entornos industriales de alta interferencia sonora donde la comprensión verbal es crítica.

No se ha detallado en el estudio si los investigadores han establecido colaboraciones con empresas tecnológicas del sector para trasladar los hallazgos a aplicaciones comerciales, ni si existe financiación externa vinculada a la investigación.

La IA clona voces un 20% más inteligibles que las humanas