La más reciente evaluación de la LMSYS ha relegado a GPT-4 de su posición de liderazgo. Gracias al innovador sistema Elo, los investigadores han identificado al nuevo modelo de lenguaje más destacado: Claude 3 Opus, desarrollado por Anthropic, el cual ha superado a la prestigiosa creación de OpenAI.
El sistema Elo, conocido por su larga historia en la clasificación de jugadores de ajedrez, ha demostrado ahora su utilidad en la evaluación de inteligencias artificiales. Este método se basa en la participación humana para emitir sus calificaciones y se destaca por su capacidad para comparar directamente modelos masivos de lenguaje (LLM).
El último ranking deja en muy buen lugar a OpenAI con GPT-4 y a Anthropic con Claude 3 Opus, que copan los primeros puestos con sus diversas actualizaciones. Entre el TOP 5 se deja ver Bard (Gemini Pro) de Google a una distancia prudencial.
El modelo de lenguaje de Anthropic ha conseguido 1.253 puntos, una cifra que es suficiente para coronarse como la IA con mejor rendimiento y resultados. Es importante recalcar que la puntuación está fijada con un sistema Elo, el cual, utiliza votaciones humanas para determinar la clasificación.
Claude 3 domina y supera a GPT-4
Claude 3 Opus ha sido probado por un total de 33,250 personas y es el único lenguaje que ha conseguido un +5/-5 en la tabla. Eso sí, GPT-4 se queda muy cerca con un total de 1.251 puntos y un +4/-4 en la tabla. Como dato importante, el modelo de OpenAI ha sido votado por 54.141 personas.
Según Simeón Emanuilov, la consistencia y rendimiento de Claude 3 Opus está por encima de GPT-4 en estos momentos, además, supera con creces a otros modelos en comprensión y generación de lenguaje.
Si bien este ranking Elo ha situado a GPT-4 como la segunda mejor IA del momento, hay detalles que no podemos pasar por alto. Que esté 4 veces en la lista no es casualidad. Sus diferentes actualizaciones muestran que OpenAI mejora a pasos agigantados con cada versión.
OpenAI no ha dicho la última palabra
Los avances de los grandes modelos de lenguaje son diarios y masivos, por lo que esta lista tiene una fecha de caducidad temprana. Cada actualización supera a la anterior, por lo que, probablemente, los mejores resultados a lo largo de los meses se consoliden en las compañías con mayor capacidad de mejora.
No se le puede restar mérito a Anthropic por lo que ha conseguido con Claude 3, pero tampoco se puede negar que OpenAI está al acecho y muy probablemente, más pronto que tarde, acabe colmando esa primera posición con una futura actualización.