OpenAI выпустила новое поколение ИИ-моделей для озвучки текста

Компания OpenAI представила новые модели на базе GPT-4o, предназначенные для работы с аудио. Они умеют преобразовывать текст в речь, транскрибировать аудиофайлы и распознавать речь в реальном времени. Среди главных преимуществ — поддержка более 100 языков, включая русский, а также возможность задавать голосу тон, эмоции и характер.
Программисты OpenAI продолжают приятно удивлять, стабильно выпуская новые продукты. На этот раз американская компания представила новое поколение аудиомоделей, которые позволяют разработчикам настраивать речь своих ИИ-помощников. Обновление включает улучшенное распознавание речи и возможность управлять стилем речи ИИ с помощью простых текстовых команд.
Модель gpt-4o-mini-tts для синтеза речи из текста обеспечивает более естественное и реалистичное звучание по сравнению с предыдущими версиями. В модели можно тонко настраивать характеристики голоса, включая интонации, паузы и эмоциональную окраску. Здесь можно выбрать интонацию каждого голоса. В частности, на выбор представлены голоса «сумасшедшего ученого», «чирлидера», «спортивного тренера», «вечного оптимиста, «спокойного ментора», «Санты-Клауса» и т. д. Доступно более 100 языков, в том числе русский.
Кроме того, компания улучшила технологию распознавания речи. Новые модели gpt-4o-transcribe и gpt-4o-mini-transcribe лучше расшифровывают медиафайлы и допускают меньше ошибок, даже если на записи есть посторонние шумы или спикер говорит быстро.
В данный момент разработчики могут получить доступ к моделям через API. Протестировать озвучку текста можно на сайте openai.fm. В бесплатной версии можно ввести до 1000 символов.
Тем временем ученые из OpenAI и Массачусетского технологического института в ходе совместного исследования выяснили, что постоянное использование ChatGPT может снизить интерес к живому общению и усилить чувство одиночества.
В рамках эксперимента почти тысяча человек каждый день разговаривали с чат-ботом — в текстовом или голосовом формате — не менее пяти минут. Через месяц стало ясно: чем чаще участники обращались к ИИ, тем больше к нему привязывались и реже контактировали с живыми людьми. Высокий уровень доверия сопровождался ощущением изоляции и зависимости от технологии, пишет Bloomberg. Руководство OpenAI считает, что результаты данной научной работы послужат основой для дальнейших исследований влияния искусственного интеллекта на общество.
Фото: Unsplash