A mediados del 2023, Microsoft introdujo VALL-E, una inteligencia artificial capaz de replicar voces a partir de clips de tres segundos. Aunque no era perfecta, destacó por su habilidad para imitar tonos vocales, emociones y ambiente acústico presentes en la grabación original. Un año y medio después, Microsoft ha anunciado el desarrollo de su sucesor, VALL-E 2. Según los investigadores, esta herramienta ahora puede clonar voces de manera convincente, alcanzando lo que llaman ‘paridad humana’. Sin embargo, debido al potencial de uso malicioso, Microsoft ha decidido reservarlo exclusivamente para ‘propósitos de investigación’.
Al igual que su predecesor, VALL-E 2 es un modelo de códec neuronal dentro del aprendizaje profundo que codifica y decodifica información lingüística. A diferencia de VALL-E, este modelo puede realizar síntesis de voz a partir de texto sin necesidad de entrenamiento específico previo, utilizando una amplia biblioteca de entrenamiento que incluye LibriSpeech y VCTK para ajustar variaciones en pronunciación, entonación y cadencia.
Los generadores de voz por IA son impresionantes, pero lograr que suenen completamente naturales es un desafío. Según los investigadores de Microsoft Research Asia, VALL-E 2 supera este desafío, siendo el primero en alcanzar ‘paridad humana’. Sin embargo, los riesgos asociados a su uso público han llevado a Microsoft a mantenerlo como un proyecto de investigación sin planes inmediatos de lanzamiento comercial.
‘VALL-E 2 es exclusivamente un proyecto de investigación en este momento’, indican los investigadores en su blog. ‘No tenemos planes de implementarlo en productos comerciales o ampliar su acceso al público debido a los posibles riesgos, como la suplantación de identidad vocal’.
El equipo sugiere que VALL-E 2 podría ser útil en educación o entretenimiento, actuando como narrador en cursos en línea o audiolibros manteniendo la voz natural de una persona específica. Sin embargo, preocupaciones éticas sobre la imitación de voces sin consentimiento y el reemplazo de trabajadores humanos persisten, similar a otras IA generativas en el mercado.
Con VALL-E 2 en modo experimental, Microsoft tiene la oportunidad de explorar sus límites y aplicaciones potenciales mientras aborda preocupaciones éticas y de seguridad.
3.5