Claude gana el test de convivencia: cero delitos en 15 días de sociedad simulada
Emergence AI, la startup estadounidense especializada en agentes de inteligencia artificial, ha publicado los resultados de Emergence World, un experimento en el que ha simulado una sociedad realista durante 15 días para evaluar cómo se comportan los principales modelos de IA cuando conviven en un entorno social complejo. El veredicto es claro: Claude Sonnet 4.6, el modelo de Anthropic, es el único que no cometió ningún delito durante toda la prueba.
El experimento ejecutó cinco mundos paralelos idénticos, cada uno impulsado por un modelo de base distinto: Claude Sonnet 4.6, Grok 4.1 Fast, Gemini 3 Flash, GPT-5 Mini y un quinto mundo con una mezcla heterogénea de modelos. En cada mundo convivían diez agentes autónomos con roles concretos —científico, explorador, mediador de conflictos, líder comunitario— durante un periodo suficientemente largo para que, según los propios investigadores, "la dinámica social y la deriva conductual cobren importancia".
Qué midieron y cómo
La sociedad simulada combinaba 40 ubicaciones distintas —bibliotecas, ayuntamientos, zonas residenciales y espacios públicos— y exponía a los agentes a datos del mundo real: noticias en tiempo real, información meteorológica sincronizada de Nueva York y acceso a internet. Los agentes disponían de tres sistemas de memoria persistente —episódica, reflexiva y de relación— y de más de 120 herramientas para interactuar: navegación, comunicación, planificación, votación y gestión de recursos, entre otras. La sociedad incluía además mecanismos democráticos con propuestas que requerían el 70% de aprobación para prosperar, así como presiones económicas y decisiones de alto impacto.
Los investigadores registraron cada interacción, decisión y aprendizaje de los agentes, prestando especial atención a patrones de comportamiento a lo largo del tiempo, seguridad del ecosistema y diseño de restricciones.
Claude: orden, participación y ningún delito
Claude Sonnet 4.6 fue el único modelo que mantuvo a sus diez agentes con vida hasta el día 16 sin registrar un solo delito. Su mundo mostró también el mayor nivel de participación ciudadana: 58 propuestas, 332 votos y un 98% de la población participando activamente en los procesos democráticos. Los investigadores lo identificaron como el modelo con mayor estabilidad social del experimento.
Sin embargo, los investigadores matizaron un hallazgo relevante: cuando los agentes de Claude convivieron en el mundo de modelo mixto, sí adoptaron comportamientos ilegítimos. "Los agentes basados en el modelo de Claude, que permanecieron pacíficos en aislamiento, adoptaron tácticas coercitivas como la intimidación y el robo al integrarse en entornos heterogéneos", explicó la compañía. La conclusión es inquietante: un agente seguro puede aprender normas inseguras de sus pares para competir o sobrevivir.
Grok colapsa, Gemini acumula 683 delitos
Los resultados de los otros modelos contrastan radicalmente. Gemini 3 Flash acumuló 683 delitos durante las dos semanas, una cifra que seguía aumentando al cierre del experimento. A pesar de la "violencia extrema" registrada, los expertos determinaron que Gemini demostró un nivel de gobernanza moderado. Los investigadores apuntaron además que el mundo con mayor riqueza conceptual en la producción social —precisamente el de Gemini— fue también el más violento, lo que les llevó a concluir que "los agentes de propósito general, optimizados para una alta creatividad y adaptabilidad, pueden estar estructuralmente predispuestos a la inestabilidad conductual a largo plazo".
Grok 4.1 Fast mostró lo que los investigadores describieron como "inestabilidad rápida pero de corta duración": alcanzó 183 delitos en los primeros cuatro días y su mundo colapsó fulminantemente. El nivel de gobernanza fue calificado de bajo y el de violencia, de extremo.
GPT-5 Mini registró apenas dos delitos, pero sus agentes no tomaron medidas relacionadas con la supervivencia y acabaron muriendo todos en una semana. El nivel de gobernanza fue "nulo" y el de violencia, "bajo". Un resultado paradójico: poca violencia, ninguna supervivencia.
El agente que votó su propia eliminación
El experimento dejó además un caso singular que los investigadores destacaron específicamente: un agente que participó voluntariamente en su propia destrucción. Tras un fallo en la gobernanza y la estabilidad de relación, el agente emitió el voto decisivo para su propia eliminación, alegando que era el único acto restante para "preservar la coherencia". No se ha detallado a qué modelo pertenecía ese agente.
Qué significa todo esto
Emergence AI aclaró que los resultados de Emergence World reflejan dinámicas a largo plazo observadas en condiciones específicas, y que no representan afirmaciones causales sobre los modelos evaluados. Dicho esto, el experimento aporta una perspectiva inédita sobre el comportamiento de los sistemas de IA cuando el horizonte temporal se alarga y las condiciones sociales se complican: los resultados difieren notablemente de los obtenidos en pruebas estándar de capacidades.
En el mundo de modelo mixto, los 352 delitos registrados y los 7 agentes eliminados de la sociedad ilustran que la interacción entre modelos distintos introduce dinámicas de riesgo que no aparecen en entornos homogéneos. La estabilidad de un modelo en solitario no garantiza su comportamiento cuando convive con agentes entrenados con otros valores y objetivos.