Корпорация Microsoft совершила стратегический шаг к технологической независимости в сфере искусственного интеллекта, представив три собственные базовые модели: MAI-Transcribe-1 для преобразования речи в текст, MAI-Voice-1 для генерации аудио и MAI-Image-2 для создания изображений и видео. Модели уже доступны через платформу Microsoft Foundry и тестовую среду MAI Playground.
Ключевым фактором, позволившим этот запуск, стало пересмотрение контракта с OpenAI в конце 2025 года. По условиям первоначального соглашения 2019 года Microsoft была ограничена в самостоятельной разработке моделей искусственного общего интеллекта (AGI). После того как OpenAI начала расширять партнёрства за пределами Microsoft, включая соглашения с SoftBank, стороны провели реструктуризацию договора. Новые условия предоставили Microsoft право создавать собственные передовые модели, сохраняя при этом лицензионные права на технологии OpenAI до 2032 года.
Генеральный директор Microsoft AI Мустафа Сулейман в интервью VentureBeat подтвердил, что партнёрство с OpenAI продолжается, но теперь компания может независимо заниматься собственными исследованиями в области сверхинтеллекта. Он заявил, что цель Microsoft — стать «полностью независимой» и предлагать «передовые модели во всех модальностях».
Технические характеристики новых моделей впечатляют. MAI-Transcribe-1 демонстрирует наименьшую среднюю частоту ошибок на словах (3,8%) на бенчмарке FLEURS для 25 наиболее востребованных языков, превосходя по этому показателю OpenAI Whisper-large-v3 по всем языкам и Google Gemini 3.1 Flash — по 22 из 25. Скорость пакетной обработки этой модели в 2,5 раза выше, чем у предыдущего предложения Azure. Модель уже тестируется внутри Teams и Copilot Voice.
MAI-Voice-1 генерирует 60 секунд естественно звучащего аудио за одну секунду и позволяет создавать пользовательские голоса на основе всего нескольких секунд образца. MAI-Image-2 входит в тройку лидеров на платформе Arena.ai и внедряется в Bing и PowerPoint.
Особенностью разработки стал минимальный состав команд. Каждую модель создала группа из менее чем 10 инженеров. Сулейман подчеркнул, что достижения в производительности были получены за счёт архитектуры моделей и выбора данных, а не увеличения численности персонала. Этот подход контрастирует с общей отраслевой тенденцией, где лаборатории вроде Meta предлагают отдельным исследователям пакеты стоимостью до $200 млн.
Microsoft позиционирует агрессивное ценообразование как ключевое конкурентное преимущество. Транскрипция начинается от $0,36 за час аудио, генерация голоса — от $22 за миллион символов, а работа с изображениями — от $5 за миллион входных токенов и $33 за миллион выходных токенов для изображений. Сулейман назвал эти тарифы «самыми дешёвыми среди всех гиперскейлеров».
Запуск моделей стал первым публичным ответом Microsoft на давление инвесторов, требующих отдачи от многомиллиардных инвестиций компании в ИИ. Акции MSFT завершили худший квартал с 2008 года, упав примерно на 17% с начала года. В ближайшие 12–18 месяцев Microsoft планирует развернуть масштабные GPU-кластеры для разработки frontier-моделей, включая большую языковую модель (LLM).