Сам себе режиссер. «Сбер» представил нейросеть для генерации полноценного видео

Вслед за нейросетью, которая генерирует фотографии, «Сбер» представил систему Kandinsky Video, которая создает короткие ролики.

Гонка систем искусственного интеллекта продолжается и в России. Один из законодателей мод — "Сбер", который накануне в ходе международной конференции AI Journey презентовал первую в России генеративную модель для создания полноценных видеороликов по текстовому описанию. Модель генерирует видеоряд продолжительностью до 8 секунд с частотой 30 кадров в секунду.

Формат сгенерированного ролика представляет собой непрерывную сцену с движением как объекта, так и фона. Именно это отличает видеоролики, которые создаются с помощью Kandinsky Video, от анимационных видеороликов, в которых динамика достигается за счет моделирования пролета камеры относительно статичной сцены. Нейросеть выдает видео с разрешением 512×512 пикселей и различным соотношением сторон. Модель обучена на датасете из более чем 300 тысяч пар «текст — видео». Генерация видео занимает до трех минут.

— Недавно мы обучили Kandinsky создавать анимационные видео по текстовому описанию, а уже сегодня представляем модель совершенно другого уровня — первую в России модель по генерации полноценных видеороликов по тексту. Это важный вклад в развитие российских генеративных нейросетей. У пользователей появится еще больше возможностей для креатива и реализации своих творческих задумок любой направленности. Люди смогут создавать уникальные видеоролики абсолютно бесплатно. Наша модель, как и большинство других в линейке "Сбера", будет доступна в open source. Мы верим, что искусственный интеллект сможет открыть перед людьми новые супервозможности и создать инструменты, которыми они будут пользоваться для решения своих задач, — прокомментировал первый заместитель председателя правления "Сбербанка" Александр Ведяхин.

Мы в редакции протестировали нейросеть, в целом впечатление двоякое. Ролики получаются достаточно расплывчатыми и абстрактными, качество самого видео тоже оставляет желать лучшего, но, учитывая, что в России это первая генеративная модель для создания видео, то это уже прорыв. Чат-бот позволяет в одном ролике совмещать до трех сцен, но каждую сцену нужно описать отдельно. Также можно выбрать режим анимации, который будет использоваться. Режим — это движение камеры относительно генерации. Камера может погружаться вглубь изображения, обозревать объект на генерации с разных сторон, вращаться и т.д. Кроме того, можно выбрать горизонтальный, квадратный или вертикальный формат видео. В целом это смотрится достаточно эффектно.

Если задаешь сцену «по улице едет зеленый автомобиль», то нейросеть выдает зеленый автомобиль. Это плюс, но сам автомобиль достаточно абстрактный. В целом же нейросеть будет полезна СММ-специалистам, блогерам и всем любителям видеороликов. Более искушенным профессионалам придется все-таки снимать свое видео.

Кроме того, на конференции AI Journey "Сбер" презентовал новую версию нейросети Kandinsky. Теперь она умеет рисовать более реалистичные изображения и лучше понимает русскую культуру. Так, преподносят свою разработку представители компании.

— Технологии искусственного интеллекта могут наделить человека супервозможностями. Kandinsky — один из инструментов, предоставляющих такие возможности. Это удобная, функциональная и бесплатная нейросеть "Сбера" для творчества. Мы постоянно работаем над ее усовершенствованием. Новая версия модели еще лучше понимает запросы от пользователей, научилась разбираться в тонкостях русской культуры и народного творчества, — заявил Ведяхин.

Kandinsky 3.0 лучше предыдущих версий знает элементы отечественного культурного кода. Так, значительно улучшилось качество генерации российских и советских известных личностей и персонажей, архитектурных достопримечательностей, объектов культуры и элементов народного искусства России, например гжельской росписи, утверждает пресс-служба "Сбера".

Тестирование показало, что современных известных личностей Kandinsky 3.0 знает не так хорошо. В частности, тренер сборной России по футболу Валерий Карпин, по мнению нейросети, уже старик. Известную певицу Аню Семенович чат-бот тоже не смог сгенерировать. Глава партии «Единая Россия» Дмитрий Медведев отдаленно похож, но хотелось бы большей схожести, учитывая, что это очень известный политик.

Тест на элементы отечественного кода нейросеть в целом сдала на четыре. Культовый отечественный автомобиль «Жигули» получился весьма реалистично, Красная площадь тоже, исторические персоны Петр I и Владимир Ленин весьма узнаваемы. Однако, на запрос «Центр города Курска» ИИ выдал абсолютно левую картинку, а это древнейший русский город, который обязательно должен быть в базе Kandinsky.

Таким образом пока говорить о серьезном прорыве между старой и обновленной версией нейросети не приходится, напротив, с Сэмом Альтманом случился регресс: если 2 дня назад чат-бот выдавал фотографию, похожую на американского программиста, то сейчас по такому же запросу ИИ генерирует седого старика. Сервис нужно дорабатывать, тем более, что доступных аналогов хватает.

Артем Реутов

Фото: Kandinsky

#искусственный интеллект

Telegram Стратегии

23.11.2023

анонсы
мероприятий

инновации