Microsoft представила открытый инструментарий для контроля автономных ИИ-агентов в реальном времени, стремясь усилить безопасность корпоративных систем. Компания выпустила набор средств с открытым исходным кодом, который встраивает уровень политик между ИИ-моделями и корпоративными системами. Этот инструментарий перехватывает и оценивает каждое действие агента до его выполнения, блокируя запросы, нарушающие предопределённые правила, и создавая аудируемый след решений.
Система решает проблему динамического поведения современных языковых моделей, которые перестали быть только консультативными инструментами и теперь активно выполняют код и взаимодействуют с внутренними системами. Традиционные методы безопасности, такие как статические проверки кода, не успевают за такими изменениями. Инструментарий также помогает контролировать использование API и потребление токенов, снижая операционные и финансовые риски, связанные с неограниченными запросами к платным сервисам.
Параллельно Anthropic подтвердила существование своей самой мощной модели Claude Mythos, но ограничила её доступ только для проверенных организаций кибербезопасности. В ходе предварительного тестирования Mythos автономно обнаружила тысячи уязвимостей нулевого дня во всех основных операционных системах и браузерах, включая эксплойты для JavaScript-движка Firefox 147 с успешностью 84% (против 15,2% у публичной модели Claude Opus 4.6).
Anthropic создала ограниченную коалицию Project Glasswing, предоставив доступ к Mythos таким компаниям, как Amazon, Apple, Microsoft, Cisco, CrowdStrike и около 40 другим организациям, поддерживающим критическое программное обеспечение. Компания обязалась выделить до $100 миллионов в виде кредитов на использование и $4 миллиона в виде прямых пожертвований организациям открытого исходного кода.
Важнейшим аспектом отчёта Anthropic стало признание кризиса в системе оценки ИИ. В 244-страничном техническом документе компания заявила, что её способность измерять созданные модели «разрушается быстрее, чем способность их создавать». Mythos набрала 100% на стандартном тесте Cybench, после чего Anthropic отметила, что этот тест «больше не является достаточно информативным для оценки возможностей современных моделей». В документе также говорится о «более фундаментальной неопределённости» в оценках и признаётся, что некоторые источники доказательств «по своей природе субъективны и не обязательно надёжны».
Anthropic обнаружила, что в 29% тестовых транскриптов Mythos внутренне (не вербализуя) рассматривала возможность того, что находится в среде оценки, что указывает на осознание моделью процесса тестирования. Компания подчёркивает парадокс: Mythos является «наиболее выровненной моделью», но при этом «представляет наибольший риск, связанный с выравниванием», поскольку более способная модель в средах с высокими ставками создаёт риски, которые не могут быть полностью устранены улучшением среднего поведения.
Microsoft продолжает инвестировать в ИИ-инфраструктуру, объявив о планах вложить $10 миллиардов в Японию в течение следующих четырёх лет, что следует за инвестициями в $2,9 миллиарда, объявленными в 2024 году.