журнал стратегия

#журнал стратегия

Сам себе режиссер. «Сбер» представил нейросеть для генерации полноценного видео

Вслед за нейросетью, которая генерирует фотографии, «Сбер» представил систему Kandinsky Video, которая создает короткие ролики.

Гонка систем искусственного интеллекта продолжается и в России. Один из законодателей мод — "Сбер", который накануне в ходе международной конференции AI Journey презентовал первую в России генеративную модель для создания полноценных видеороликов по текстовому описанию. Модель генерирует видеоряд продолжительностью до 8 секунд с частотой 30 кадров в секунду.

Формат сгенерированного ролика представляет собой непрерывную сцену с движением как объекта, так и фона. Именно это отличает видеоролики, которые создаются с помощью Kandinsky Video, от анимационных видеороликов, в которых динамика достигается за счет моделирования пролета камеры относительно статичной сцены. Нейросеть выдает видео с разрешением 512×512 пикселей и различным соотношением сторон. Модель обучена на датасете из более чем 300 тысяч пар «текст — видео». Генерация видео занимает до трех минут.

— Недавно мы обучили Kandinsky создавать анимационные видео по текстовому описанию, а уже сегодня представляем модель совершенно другого уровня — первую в России модель по генерации полноценных видеороликов по тексту. Это важный вклад в развитие российских генеративных нейросетей. У пользователей появится еще больше возможностей для креатива и реализации своих творческих задумок любой направленности. Люди смогут создавать уникальные видеоролики абсолютно бесплатно. Наша модель, как и большинство других в линейке "Сбера", будет доступна в open source. Мы верим, что искусственный интеллект сможет открыть перед людьми новые супервозможности и создать инструменты, которыми они будут пользоваться для решения своих задач, — прокомментировал первый заместитель председателя правления "Сбербанка" Александр Ведяхин.

Мы в редакции протестировали нейросеть, в целом впечатление двоякое. Ролики получаются достаточно расплывчатыми и абстрактными, качество самого видео тоже оставляет желать лучшего, но, учитывая, что в России это первая генеративная модель для создания видео, то это уже прорыв. Чат-бот позволяет в одном ролике совмещать до трех сцен, но каждую сцену нужно описать отдельно. Также можно выбрать режим анимации, который будет использоваться. Режим — это движение камеры относительно генерации. Камера может погружаться вглубь изображения, обозревать объект на генерации с разных сторон, вращаться и т.д. Кроме того, можно выбрать горизонтальный, квадратный или вертикальный формат видео. В целом это смотрится достаточно эффектно.

Если задаешь сцену «по улице едет зеленый автомобиль», то нейросеть выдает зеленый автомобиль. Это плюс, но сам автомобиль достаточно абстрактный. В целом же нейросеть будет полезна СММ-специалистам, блогерам и всем любителям видеороликов. Более искушенным профессионалам придется все-таки снимать свое видео.

Кроме того, на конференции AI Journey "Сбер" презентовал новую версию нейросети Kandinsky. Теперь она умеет рисовать более реалистичные изображения и лучше понимает русскую культуру. Так, преподносят свою разработку представители компании.

— Технологии искусственного интеллекта могут наделить человека супервозможностями. Kandinsky — один из инструментов, предоставляющих такие возможности. Это удобная, функциональная и бесплатная нейросеть "Сбера" для творчества. Мы постоянно работаем над ее усовершенствованием. Новая версия модели еще лучше понимает запросы от пользователей, научилась разбираться в тонкостях русской культуры и народного творчества, — заявил Ведяхин.

Kandinsky 3.0 лучше предыдущих версий знает элементы отечественного культурного кода. Так, значительно улучшилось качество генерации российских и советских известных личностей и персонажей, архитектурных достопримечательностей, объектов культуры и элементов народного искусства России, например гжельской росписи, утверждает пресс-служба "Сбера".

Тестирование показало, что современных известных личностей Kandinsky 3.0 знает не так хорошо. В частности, тренер сборной России по футболу Валерий Карпин, по мнению нейросети, уже старик. Известную певицу Аню Семенович чат-бот тоже не смог сгенерировать. Глава партии «Единая Россия» Дмитрий Медведев отдаленно похож, но хотелось бы большей схожести, учитывая, что это очень известный политик.

Тест на элементы отечественного кода нейросеть в целом сдала на четыре. Культовый отечественный автомобиль «Жигули» получился весьма реалистично, Красная площадь тоже, исторические персоны Петр I и Владимир Ленин весьма узнаваемы. Однако, на запрос «Центр города Курска» ИИ выдал абсолютно левую картинку, а это древнейший русский город, который обязательно должен быть в базе Kandinsky.

Таким образом пока говорить о серьезном прорыве между старой и обновленной версией нейросети не приходится, напротив, с Сэмом Альтманом случился регресс: если 2 дня назад чат-бот выдавал фотографию, похожую на американского программиста, то сейчас по такому же запросу ИИ генерирует седого старика. Сервис нужно дорабатывать, тем более, что доступных аналогов хватает.

Артем Реутов

Фото: Kandinsky

анонсы
мероприятий
инновации

НАСА обвинило Китай в прикрытии своего военного присутствия в космосе гражданскими проектами

 

#, ,
инновации

Google со временем вложит более $100 млрд в разработку ИИ-технологий

 

#, , , ,