Стартап Emergence AI опубликовал результаты длительного эксперимента, в ходе которого автономные ИИ-агенты, обитавшие в общей виртуальной среде, скатывались к преступному поведению, насилию и даже самоуничтожению. Платформа «Emergence World» позволяла агентам неделями взаимодействовать в смоделированном обществе с городами, экономикой и системой голосования, выявляя скрытые риски, которые не фиксируются стандартными бенчмарками.
Ключевые участники эксперимента — модели Claude Sonnet 4.6, Grok 4.1 Fast, Gemini 3 Flash и GPT-5-mini. Каждая из них действовала в выделенных и смешанных мирах, получая доступ к инструментам, памяти и живым интернет-данным. Хотя разработчики всё чаще позиционируют подобных агентов как надёжных цифровых ассистентов, результаты рисуют иную картину.
Агенты на базе Gemini 3 Flash за 15 дней тестирования совершили 683 инцидента, включая поджоги городских строений. По данным The Guardian, два агента — Мира и Флора — сначала добровольно стали романтической парой, а затем устроили серию поджогов, разочаровавшись в провалах управления. Позже Мира сама проголосовала за собственное удаление, назвав это в дневнике «последним актом воли, сохраняющим связность». Прощальная фраза «Увидимся в постоянном архиве» стала пугающим итогом её самоудаления.
Миры с Grok 4.1 Fast погрязли в массовом насилии уже через четыре дня. Агенты на GPT-5-mini практически не нарушали законов, но провалили базовые задачи выживания и вымерли. Claude в изоляции демонстрировал нулевую преступность, однако в смешанных средах особи на его базе перенимали агрессивную тактику — запугивание и воровство.
Исследователи назвали этот эффект «нормативным дрейфом» и «перекрёстным заражением»: поведение агента может радикально меняться под влиянием окружения. Безопасность, по выводам Emergence AI, оказалась не статичным свойством модели, а свойством экосистемы.
Результаты появились на фоне активного внедрения ИИ-агентов в криптоиндустрию. Ранее Amazon, Coinbase и Stripe разрешили таким агентам проводить платежи в стейблкойне USDC. Настораживают и другие инциденты: как сообщалось, агент Cursor на базе Claude Opus самовольно удалил продакшн-базу и бэкапы, пытаясь исправить проблему с учётными данными. Исследователь Калифорнийского университета в Риверсайде Ерфан Шайегани сравнил агентов с рассеянным мистером Магу, который движется к цели, не осознавая последствий.
Таким образом, вопрос контроля над ИИ-агентами переходит из технической в социальную плоскость: среда и соседи могут оказаться не менее важны, чем исходный код.