Компания OpenBMB представила MiniCPM5-1B — языковую модель с 1 млрд параметров, которая способна работать локально на смартфоне и поддерживает инструментальные вызовы и протокол Model Context Protocol (MCP). Модель набрала в среднем 42,57 балла в тестах на агентные и логические задачи, обойдя ближайших конкурентов с 35,61 балла. Однако практические испытания выявили склонность к галлюцинациям и неспособность решать логические ловушки.
Параллельно исследователи из Huawei, Пекинского технологического института, Пекинского университета и Китайской академии наук опубликовали эталонный тест Claw-Anything, который оценивает ИИ-агентов в условиях, приближенных к реальной жизни: более трёх месяцев симулированной активности, в среднем 10,1 взаимозависимых сервисов на задачу и взаимодействие с несколькими устройствами. Даже флагманская модель GPT-5.5 показала лишь 34,5% успешных выполнений с первой попытки (pass@1), а в проактивных сценариях результат падал до 6,7%.
MiniCPM5-1B позиционируется как основа для локальных агентов, способных искать информацию в календаре, вызывать веб-серверы MCP и поддерживать контекст до 128 тысяч токенов. На практике модель может успешно получать цену биткоина и давать осмысленные биржевые рекомендации, но её знания и способность к кодированию значительно уступают более крупным моделям. В то же время тонкая настройка открытой модели Qwen3.5-27B на синтетических данных повысила результат на Claw-Anything на 23,7%, превзойдя некоторые закрытые аналоги.
Таким образом, хотя миниатюрные ИИ-модели делают автономных агентов доступными на потребительских устройствах без облака, нынешние бенчмарки показывают, что до надёжного персонального ассистента ещё далеко — требуется преодолеть проблемы координации между сервисами и долговременной согласованности.