Google Translatotron traduce tu voz a otro idioma sin usar texto de por medio

google

La traducción es uno de los servicios en donde Google ha sido capaz de probar distintos modelos de inteligencia artificial. El más reciente tiene que ver con la traducción voz-a-voz sin necesidad de utilizar texto de por medio.

Conocido como Translatotron, el sistema es el primero en su tipo y utiliza un modelo de extremo a extremo que no depende del uso de texto. Este enfoque es más preciso que el modelo de cascada, que involucra el reconocimiento de voz para capturar el texto, traducirlo y convertirlo a voz nuevamente.

Translatotron está basado en una red de secuencia a secuencia que captura la voz y la procesa como un espectrograma, que cosiste en una representación visual del espectro de frecuencias. El modelo genera espectrogramas del contenido traducido en el lenguaje de destino con la posibilidad de generar una voz similar a la original.

Te interesa: El fundador del Telegram explica por qué "WhatsApp nunca será seguro"

Google dice que el modelo de secuencia a secuencia utiliza un objetivo multitareas para predecir las transcripciones de origen y destino al mismo tiempo que genera los espectrogramas de destino. Luego utiliza un vocoder neuronal que convierte los espectrogramas de salida en formas de onda, y opcionalmente, un codificador para mantener el carácter de la voz de origen.

Translatotron está basado en una red de secuencia a secuencia que captura la voz y la procesa como un espectrograma, que cosiste en una representación visual del espectro de frecuencias. El modelo genera espectrogramas del contenido traducido en el lenguaje de destino con la posibilidad de generar una voz similar a la original.

Google dice que el modelo de secuencia a secuencia utiliza un objetivo multitareas para predecir las transcripciones de origen y destino al mismo tiempo que genera los espectrogramas de destino. Luego utiliza un vocoder neuronal que convierte los espectrogramas de salida en formas de onda, y opcionalmente, un codificador para mantener el carácter de la voz de origen.