Por si no lo sabías, VALL-E es la nueva IA, que puede “clonar” cualquier voz que se le muestre. ¡Toda una locura!
Este nuevo modelo de lenguaje para la síntesis de texto a voz es capaz de replicar la voz de cualquier hablante basado en EnCodec; el códec de audio de Meta, la IA analiza la voz de una persona e interpreta cómo sonaría esa voz con diferentes frases.
Además, cuida la entonación y la emoción del hablante, según lo confirmado por la compañía fundada por Bill Gates.
Y por si fuera poco, Microsoft entrenó las funcionalidades de síntesis de voz de VALL-E utilizando la biblioteca de audio LibriLight de Meta. Incluye 60 mil horas de habla en inglés de más de 7 mil hablantes; la mayoría son provenientes de un audiolibro.
Esperan que VALL-E jamás sea utilizado para ocasionar daño
De modo que ya que ha aprendido una voz específica, VALL-E puede sintetizar el audio de esa persona y decir cualquier cosa intentando retener el tono emocional del hablante.
Cuando se combina con otros modelos IA como GPT-3, sus creadores creen que se puede usar para aplicaciones de texto a voz de alta calidad; así como edición de voz en la que se puede editar y modificar una grabación de una persona a partir de una transcripción de texto.
Aunque todo lo anunciado por Microsoft irremediablemente hace temer en las posibles consecuencias negativas de su uso; la tecnología también podría usarse para engañar a otro ser humano haciendo una llamada de socorro.
Pero por el momento, no deberíamos preocuparnos ya que VALL-E no está disponible para el público, al menos no por ahora.