Tecnología

«OpenAI» lanza nueva inteligencia artificial que traduce y transcribe audios

Por

23 de septiembre de 2022 10:29 AM

Foto: «OpenAI» lanza nueva inteligencia artificial que traduce y transcribe audios / GETTY

Whisper es una nueva inteligencia artificial de OpenAI que planea revolucionar los traductores y las tecnologías de voz a texto. De acuerdo a ArsTechnica, esta IA es capaz de transcribir y traducir entrevistas, podcasts, conversaciones y mucho más. Pero lo mejor de todo es que su capacidad para hacerlo está casi al nivel de un humano.

La nueva generación de tecnología de voz a texto ya está aquí, y llega potenciada por la inteligencia artificial. Aquí te contamos cómo funciona Whisper, una IA de OpenAI que llega a cambiar el panorama.

Según comentan desde OpenAI, su inteligencia artificial se ha entrenado con más de 680.000 horas de audio. Pero, además de escuchar, Whisper también ha tenido que hacer coincidir dichas palabras con texto escrito.

Te interesa: ¿Qué pasaría con tus juegos si Steam cierra algún día?

Gracias a la red neuronal de la inteligencia artificial, puede utilizar contexto a partir de los datos de entrada, para posteriormente aprender asociaciones que pueden traducirse en la salida del modelo.

OpenAI muestra impresionantes resultados

«El audio de entrada se divide en trozos de 30 segundos», describe OpenAI en la publicación oficial. De esta forma, «se convierte en un espectrograma y se pasa al codificador».

Pero no es todo. Posteriormente, se entrena al codificador para predecir el texto correspondiente. ¿Cómo se hace? Se entremezclan tokens especiales que orientan al modelo a llevar a cabo una sola tarea, como la de identificación de idioma. Después se añaden a la ecuación otras variables, como la identificación de las marcas de tiempo a nivel de frase, la transcripción del habla multilingüe y la traducción al inglés.

Lo mejor de todo es que el trabajo de Whisper no acaba aquí. OpenAI ha decidido publicar su código para que pueda funcionar como base a los futuros procesadores del habla y herramientas de accesibilidad. Por lo tanto, hay oportunidad de ver mejoras en la inteligencia artificial.

El citado medio señala que la tecnología detrás de esta inteligencia artificial es tan impresionante como sus resultados. Utilizaron un episodio de podcast para probar su poder, mismo que contenía un fragmento donde se había usado un teléfono para transmitir audio, por lo que la calidad dejaba mucho que desear.

A pesar de esto, Whisper hizo un buen trabajo transcribiendo el texto mientras se encontraba corriendo en Python. Eso sí, esta tecnología no funciona en tiempo real, y según ArsTechnica, se tomó un buen tiempo para finalizarlo en un procesador Intel de gama media. Al final, el resultado fue «mucho mejor que servicios de transcripción impulsados por la inteligencia artificial que hayamos probado en el pasado«.

Pero ojo, que existe una letra pequeña en el código de Whisper. Según sus creadores, es una herramienta que podría usarse también para el mal. Por ejemplo, para identificar interlocutores en una conversación, o incluso para automatizar la vigilancia. No obstante, desde OpenAI esperan que se use para el bien, y permita a desarrolladores el crear herramientas de traducción y transcripción mucho más complejas.