Компании OpenAI и криптоинвестиционная фирма Paradigm представили EVMbench — новый бенчмарк для оценки способностей искусственного интеллекта в области безопасности смарт-контрактов Ethereum. Инструмент призван измерить, насколько эффективно ИИ-агенты могут обнаруживать, исправлять и безопасно эксплуатировать уязвимости в контрактах, работающих на виртуальной машине Ethereum (EVM).
EVMbench организует задачи по трём основным направлениям: обнаружение (detect), исправление (patch) и эксплуатация (exploit) уязвимостей. По данным The Block, OpenAI описывает эту работу как тестирование моделей в «экономически значимых средах» для развития защитных применений.
Бенчмарк основан на реальных уязвимостях, выявленных примерно в 40 аудитах, а также включает специальные задачи с неопубликованными контрактами. Агенты запускаются в изолированных песочницах (контейнерах), а каждая задача имеет ключ ответа для обеспечения объективной оценки и воспроизводимости результатов.
Ключевые результаты тестирования показывают быстрое развитие способностей ИИ к эксплуатации уязвимостей. Как сообщает Investing.com, модель GPT-5.3-Codex достигла показателя успеха в 72,2% в режиме «эксплуатация» по сравнению с 31,9% у GPT-5. При этом эффективность в режимах «обнаружение» и «исправление» остаётся значительно ниже, что указывает на сохраняющийся разрыв.
«Учитывая, что более $100 млрд активов находятся в открытых криптоконтрактах, существует реальный риск со стороны ИИ-агентов, способных находить уязвимости. EVMbench призван измерить, что именно агенты могут делать», — заявил Алпин Юкселоглу, партнёр Paradigm.
Запуск EVMbench совпал с объявлением OpenAI о выделении $10 млн на исследования в области кибербезопасности. Как отмечает Crypto Briefing, эта инициатива интегрирует ИИ-агентов в рабочие процессы криптоаудита, делая акцент на оборонительных применениях.
Влияние на индустрию аудита может быть значительным. «Теперь нам ясно, что растущая часть аудитов в будущем будет выполняться агентами», — отметил Юкселоглу. Однако эксперты, включая команду OpenZeppelin, предупреждают, что ИИ пока не может полностью заменить опытных аудиторов, особенно в работе с новыми или сложными случаями.
Независимые исследования, такие как SCONE-bench от Anthropic, подтверждают двойственную природу технологии: агенты могут автономно генерировать эксплойты, имитирующие потери в миллионы долларов, даже для контрактов, развёрнутых после окончания обучения модели. Это сокращает временное окно между раскрытием уязвимости и её использованием, подчёркивая необходимость таких измеримых оценок, как EVMbench.
С точки зрения управления, подобные бенчмарки могут повлиять на процессы предразвёртывающего сканирования, непрерывного мониторинга поведения в блокчейне и нормы ответственного раскрытия уязвимостей. Это означает, что советы директоров, DAO протоколов и руководители по безопасности будут более внимательно оценивать критерии доступа агентов и подписания аудиторских отчётов.