OpenAI выпустила новое поколение ИИ-моделей для озвучки текста

Компания OpenAI представила новые модели на базе GPT-4o, предназначенные для работы с аудио. Они умеют преобразовывать текст в речь, транскрибировать аудиофайлы и распознавать речь в реальном времени. Среди главных преимуществ — поддержка более 100 языков, включая русский, а также возможность задавать голосу тон, эмоции и характер.

Программисты OpenAI продолжают приятно удивлять, стабильно выпуская новые продукты. На этот раз американская компания представила новое поколение аудиомоделей, которые позволяют разработчикам настраивать речь своих ИИ-помощников. Обновление включает улучшенное распознавание речи и возможность управлять стилем речи ИИ с помощью простых текстовых команд.

Модель gpt-4o-mini-tts для синтеза речи из текста обеспечивает более естественное и реалистичное звучание по сравнению с предыдущими версиями. В модели можно тонко настраивать характеристики голоса, включая интонации, паузы и эмоциональную окраску. Здесь можно выбрать интонацию каждого голоса. В частности, на выбор представлены голоса «сумасшедшего ученого», «чирлидера», «спортивного тренера», «вечного оптимиста, «спокойного ментора», «Санты-Клауса» и т. д. Доступно более 100 языков, в том числе русский.

Кроме того, компания улучшила технологию распознавания речи. Новые модели gpt-4o-transcribe и gpt-4o-mini-transcribe лучше расшифровывают медиафайлы и допускают меньше ошибок, даже если на записи есть посторонние шумы или спикер говорит быстро.

В данный момент разработчики могут получить доступ к моделям через API. Протестировать озвучку текста можно на сайте openai.fm. В бесплатной версии можно ввести до 1000 символов.

Тем временем ученые из OpenAI и Массачусетского технологического института в ходе совместного исследования выяснили, что постоянное использование ChatGPT может снизить интерес к живому общению и усилить чувство одиночества.

В рамках эксперимента почти тысяча человек каждый день разговаривали с чат-ботом — в текстовом или голосовом формате — не менее пяти минут. Через месяц стало ясно: чем чаще участники обращались к ИИ, тем больше к нему привязывались и реже контактировали с живыми людьми. Высокий уровень доверия сопровождался ощущением изоляции и зависимости от технологии, пишет Bloomberg. Руководство OpenAI считает, что результаты данной научной работы послужат основой для дальнейших исследований влияния искусственного интеллекта на общество.

Фото: Unsplash

#искусственный интеллект

Telegram Стратегии

24.03.2025

анонсы
мероприятий

инновации