Инфраструктура обучения физическому ИИ становится новым полем битвы. Два события, произошедшие одновременно, подчеркивают растущий дефицит качественных данных для роботов и стремление решить эту проблему с противоположных сторон. Стартап XDOF вышел из тени с объявлением о привлечении $70 млн на создание конвейеров данных, а лаборатория GEAR компании Nvidia совместно с Карнеги-Меллон и Беркли представила фреймворк ENPIRE — систему, в которой ИИ-агенты без участия человека проводят полный цикл автономного обучения роботов.
XDOF: от научной проблемы к инфраструктурному бизнесу. Сооснователь и CEO Филипп Ву, в прошлом аспирант Беркли, столкнулся с парадоксом «курицы и яйца»: чтобы обучить робота, нужны масштабные данные, но самих наборов для физического взаимодействия практически не существовало. Вместе с будущим техническим директором Фредом Шенту он разработал систему телеоперации GELLO, а в октябре 2024 года запустил XDOF, которая предоставляет ИИ-лабораториям не только сбор данных, но и очистку, инструментарий и разметку — создавая самоусиливающийся цикл обратной связи. В раунде приняли участие Thrive Capital, Spark Capital, a16z, Lux и WndrCo. Компания с 60 сотрудниками уже работает с 20 клиентами, включая ведущие лаборатории, имена которых пока не раскрываются.
Центральным элементом запуска стала публикация набора данных ABC (совместно с BAIR Lab Беркли) — крупнейшей коллекции качественных траекторий манипуляций, насчитывающей 130 тысяч записей, 300 часов симуляций и 100 часов оценочных тестов. На этих данных уже обучены навыки складывания футболок, расплющивания коробок и установки AirPods в чехлы. Ву подчеркивает трёхъярусную пирамиду данных: самым ценным является телеоперационное управление на целевом роботе, затем — сбор более общих данных на GELLO-подобных устройствах и наконец «эгоцентрические» записи с носимых датчиков, которые компания планирует разрабатывать самостоятельно. Стартап намерен нанимать и обучать армии операторов по всему миру, беря на себя капиталоёмкую инфраструктуру, которую лаборатории предпочитают отдавать на аутсорсинг.
ENPIRE: когда роботов тренируют другие программы. Во вторник исследователи Nvidia, CMU и Беркли опубликовали статью о фреймворке ENPIRE, передающем всю рутинную работу по обучению роботов ИИ-агентам. Агенты на базе Codex, Claude Code и Kimi Code самостоятельно ищут публикации, выбирают между имитационным и подкрепительным обучением, переписывают код и тестируют его на физических манипуляторах. Единственное вмешательство человека требуется в начале: он задаёт процедуру сброса окружения и функцию вознаграждения, которая затем повторно используется без участия оператора.
Флот из восьми бимануальных станций с собственными GPU и Git-репозиторием за несколько недель достиг 99-процентной успешности в задачах вставки контактов, установки графических карт и перерезания пластиковых хомутов. Масштабирование с одного робота до восьми сократило время освоения движения «Push-T» с пяти часов до двух, а вставки пинов — с 90 до 40 минут. При этом переход от симуляции к реальности оказался нетривиальным: два из трёх агентов, успешно решивших задачу в симуляторе, провалились на настоящем столе из-за непредсказуемого трения. На эталонном кухонном бенчмарке RoboCasa ENPIRE превзошёл собственную модель Nvidia GR00T и инструментального агента CaP-X. Джим Фан, соруководитель GEAR Lab, назвал проект первым случаем AutoResearch в материальном мире, когда агентам выдали флот роботов, бюджет токенов и оставили работать.
Одновременно Alibaba анонсировала Qwen-Robot Suite — три фундаментальные модели для навигации, манипуляций и физического моделирования роботов, что подтверждает превращение робототехники в следующую арену конкуренции ИИ-агентов. Обе истории — XDOF и ENPIRE — бьют в одну точку: без надёжных потоков данных и автоматизации обучения физический ИИ не станет реальностью, и тот, кто построит эту инфраструктуру, получит решающее преимущество.