«Яндекс» и Сбер презентовали нейросети для генерации изображений

Отечественные компании активно участвуют в гонке нейросетей и им уже есть, что предложить пользователям.

«Яндекс» создал прототип нейросети для генерации изображений — это своего рода аналог DALL-E и Midjourney. После окончательной доработки приложение споcобно будет создавать баннеры, иллюстрации, изображения для интернет-витрин и не только.

Сейчас приложение «Шедеврум» доступно в Google Play и App Store и работает в бета-режиме. Чтобы поучаствовать в бета-тестировании, следует скачать приложение, подать заявку и дождаться своей очереди. В будущем такую возможность получат все зарегистрированные пользователи.

«Шедеврум» понимает русский и английский языки, но для лучшего результата, нужно делать очень подробное описание. Нейросеть учитывает особые пожелания (например, «фотореализм» или «высокая детализация»), способна подражать известным живописцам и работать в заданных художественных стилях, отмечает пресс-служба «Яндекса».

Нейросеть рисует изображения по методу каскадной диффузии: сначала создает картинки в соответствии с запросом, а затем поэтапно увеличивает их разрешение, насыщая деталями. Первую версию генеративной модели для бета-теста IT-специалисты обучили на 240 миллионах примеров картинок с текстовыми описаниями. В данный момент обучение идет на наборе данных из 500 миллионов примеров — в следующих обновлениях качество станет еще лучше.

В свою очередь Сбер презентовал обновленную версию нейросети Kandinsky для генерации изображений по текстовому запросу. Программа также научилась смешивать несколько картинок или создавать изображение на основе другого. Kandinsky 2.1 — это улучшенная версия одноименной нейросети, которую Сбер представил в июне прошлого года. Это уже не первое обновление, версию Kandinsky 2.0 продемонстрировали в ноябре 2022 года. Воспользоваться ею можно на сайте, при помощи команды «Запусти художника» на «умных» устройствах Sber, в приложении «Салют», на платформах ML Space и Fusion Brain, а также в Telegram-боте. Kandinsky 2.1 выдает достаточно качественные фотографии в различных стилях.

Кроме того, Kandinsky 2.1 содержит 3,3 млрд параметров вместо 2 млрд в Kandinsky 2.0 и использует не только закодированное текстовое описание, но и специальное представление изображения моделью CLIP. В таком виде искусственный интеллект формирует представление картинки на основе текстовой информации и подает его на вход основной генеративной модели. Программа распознает запросы на 101 языке (включая русский и английский) и умеет рисовать в различных стилях.

Каждый день в мире появляется миллион картинок и видео, созданных искусственным путем. Современные технологии осваивают и киберпреступники всех мастей, поэтому все чаще звучат предложения маркировать сгенерированный нейросетями контент. В частности, профессор Калифорнийского университета Хани Фарид заявил, что злоумышленники вполне способны сгенерировать видео, в котором, например, президент будет угрожать военными действиями, или директрр предприятия объявит о падении прибыли. Такие манипуляции могут привести к шторму на рынке или геополитическому кризису, в связи с этим искусственные аудио, видео или фотоматериалы необходимо маркировать. Для этого подойдет водяной знак, который будет содержать уникальный идентификатор и предупреждать, что этот контент сгенерировал ИИ.

Фото: Kandinsky 2.1

#искусственный интеллект

Telegram Стратегии

06.04.2023

анонсы
мероприятий

инновации