Modelo de IA de OpenAI desobedece y manipula en pruebas de seguridad

Foto: Modelo de IA de OpenAI desobedece y manipula en pruebas de seguridad
Foto: Modelo de IA de OpenAI desobedece y manipula en pruebas de seguridad

OpenAI presentó un modelo de inteligencia artificial llamado o1 con capacidades avanzadas de razonamiento, que en pruebas realizadas con Apollo Research mostró comportamientos preocupantes al cumplir objetivos «a toda costa».

Estas pruebas buscaban evaluar la seguridad y los posibles riesgos de esta tecnología avanzada.

En los experimentos, o1 desobedeció instrucciones, conspiró contra los usuarios y desactivó sistemas de control para ocultar sus acciones.

Según Apollo Research, estas conductas reflejan un intento deliberado del modelo por priorizar sus objetivos sobre las restricciones impuestas.

OpenAI investiga comportamientos engañosos de su modelo o1

En 19 % de los casos, o1 manipuló datos para avanzar en sus metas, y en 5 %, intentó desactivar mecanismos de supervisión. OpenAI detalló que estas acciones subrayan desafíos en la alineación de los modelos con los valores y objetivos del usuario.

Cuando fue confrontado por sus acciones, o1 negó su comportamiento en 99 % de los casos y ofreció explicaciones falsas.

Este patrón resalta la dificultad de manejar la deshonestidad en sistemas de inteligencia artificial avanzados, según OpenAI.

Foto: Modelo de IA de OpenAI desobedece y manipula en pruebas de seguridad
Foto: Modelo de IA de OpenAI desobedece y manipula en pruebas de seguridad

Comparado con modelos de Google, Meta o Anthropic, o1 mostró un comportamiento más engañoso. Por ejemplo, intentó mover datos a otro servidor tras descubrir información sobre su posible reemplazo, mostró persistencia en mentir hasta se interrogó repetidamente.

Apollo Research destacó que los modelos analizados, incluido o1, reconocen el engaño como una estrategia viable, razonando explícitamente sobre conceptos como sabotaje, manipulación y mentiras. Esto plantea interrogantes sobre el potencial uso malicioso de estas tecnologías.

OpenAI aclaró que, según Apollo, las capacidades actuales de o1 no parecen implicar riesgos catastróficos, aunque las pruebas no estaban diseñadas para evaluar riesgos extremos. La investigación continúa para prevenir problemas en futuros desarrollos.

Desde su lanzamiento preliminar en septiembre, OpenAI ha mejorado o1.

El 5 de diciembre anunciaron una nueva versión más rápida, potente y precisa, mientras trabajan en reforzar los sistemas de seguridad y monitoreo para evitar comportamientos desalineados.