В лидеры ИИ-гонки вырываются Grok 4 и Kimi К2

ChatGPT не так давно произвел настоящую революцию в мире чат-ботов, но сейчас почти каждый месяц конкуренты OpenAI выпускают нейросети, которые по многим параметрам превосходят прежнего лидера. Компания xAI представила новую флагманскую модель искусственного интеллекта — Grok 4, а также продвинутую версию Grok 4 Heavy. Grok 4 показывает высокие результаты в академических тестах, превосходя LLM от OpenAI и Google. Между тем китайская компания Moonshot AI выпустила Kimi K2 — большую языковую модель с открытым исходным кодом, которая демонстрирует технологии, отсутствующие у лидеров отрасли вроде Anthropic.

В середине июля Илон Маск представил последнюю версию своей ИИ-модели Grok 4, заявив, что она «превосходит уровень доктора наук во всех областях знаний». На презентации бизнесмен назвал новую модель «самым умным ИИ в мире». Чат-бот Grok 4 получил в 100 раз больше данных для обучения, чем версия Grok 2. Миллиардер утверждает, что новая модель способна достигать почти идеальных результатов на выпускных экзаменах практически по любому предмету. Маск сообщил, что к концу этого года ИИ сможет создать первую телепередачу на 30 минут, которую можно нормально смотреть.

Тесты тоже показывают высокие способности Grok 4. Так, в бенчмарке Humanity’s Last Exam, включающем самые сложные задачи человечества, нейросеть набрала 44,4%, а это почти вдвое больше ближайшего конкурента Gemini 2.5 Pro с результатом 26,9 %. В тесте AIME2025, включающем задачи Международной олимпиады по математике, новый алгоритм набрал 100% — до сих пор это не удавалось ни одной ИИ-модели. Базовая модель Grok 4 доступна по подписке SuperGrok за $30, а продвинутая — по тарифу SuperGrok Heavy — за $300 в месяц.

Grok 4 уже доступен через API, и xAI призывает разработчиков интегрировать модель в свои сервисы. Американская компания намерена сотрудничать с крупными облачными платформами, несмотря на то, что корпоративное направление xAI существует всего два месяца.

Китайские IT-компании тоже не отстают. Стартап Moonshot, поддерживаемый Alibaba, представил Kimi K2 — открытую языковую модель, бросающую вызов ChatGPT. Чат-бот превосходит Claude Opus 4 и GPT-4.1 в тестах на программирование, предлагая низкую стоимость: 15 центов за миллион входных токенов и $2,50 за выходные. Для сравнения, Claude Opus 4 берет в 100 раз больше за входные данные — $15 за миллион токенов — и в 30 раз больше за выходные — $75 за миллион токенов. GPT-4.1 берет $2 за миллион входных токенов и $8 за миллион выходных. Kimi K2 доступна бесплатно через приложение и браузер, в отличие от подписок ChatGPT и Claude. Модель пользователи хвалят за кодинг, но интеграция с другими системами ограничена.

Moonshot AI позиционирует Kimi-K2 как модель для агентных приложений, она умеет выполнять команды, вызывать внешние инструменты, генерировать и исправлять код, а также решать многошаговые задачи. Kimi K2 способен самостоятельно планировать мероприятия, проводить анализ данных, генерировать сложный код и даже управлят интерфейсами и внешними сервисами. Например, модель может спланировать поездку с покупкой билетов и бронированием гостиниц через разные сайты, выполнить статистический анализ зарплатных данных, включая построение графиков и выводы, или помочь автоматизировать процессы в компаниях без постоянного контроля человека. По крайней мере, об этом в своих демонстрационных материалах заверяют программисты Moonshot AI.

Китайские разработчики сразу выпустили две версии своей модели: базовый вариант Kimi K2 для исследователей и разработчиков, и Kimi K2-Instruct, оптимизированный для чат-ботов и автономных ИИ-агентов. Фактически китайцы создали эффективный автономный агент, решающий комплексные задачи с минимальным вмешательством человека.

Результаты тестирования это подтверждают. На тесте SWE-bench Verified, который проверяет способность ИИ исправлять ошибки в программном коде, Kimi K2 показал точность в 65,8%, превысив большинство конкурирующих открытых моделей и вплотную приблизившись к коммерческим гигантам. В тесте LiveCodeBench, где модели пишут полноценный код, она показала 53,7%, обойдя DeepSeek–V3 (46,9%) и даже GPT-4.1 (44,7%). Чат-бот отличился и в MATH-500 — тесте на математические рассуждения: 97,4% против 92,4% у GPT-4.1.

Так что гонки ИИ-агентов в самом разгаре, конкуренция запредельная. При этом важным преимуществом является не только функционал нейросетей, но и их доступность. Рядовые пользователи по-прежнему предпочитают на старте попробовать бесплатный или относительно доступный сервис, а для разработчиков важен открытый код чат-бота.

Фото: YandexART

#искусственный интеллект

Telegram Стратегии

21.07.2025

анонсы
мероприятий

инновации