журнал стратегия

#журнал стратегия

«Яндекс» и Сбер презентовали нейросети для генерации изображений

Отечественные компании активно участвуют в гонке нейросетей и им уже есть, что предложить пользователям.

«Яндекс» создал прототип нейросети для генерации изображений — это своего рода аналог DALL-E и Midjourney. После окончательной доработки приложение споcобно будет создавать баннеры, иллюстрации, изображения для интернет-витрин и не только.

Сейчас приложение «Шедеврум» доступно в Google Play и App Store и работает в бета-режиме. Чтобы поучаствовать в бета-тестировании, следует скачать приложение, подать заявку и дождаться своей очереди.  В будущем такую возможность получат все зарегистрированные пользователи.

«Шедеврум» понимает русский и английский языки, но для лучшего результата, нужно делать очень подробное описание. Нейросеть учитывает особые пожелания (например, «фотореализм» или «высокая детализация»), способна подражать известным живописцам и работать в заданных художественных стилях, отмечает пресс-служба «Яндекса».

Нейросеть рисует изображения по методу каскадной диффузии: сначала создает картинки в соответствии с запросом, а затем поэтапно увеличивает их разрешение, насыщая деталями. Первую версию генеративной модели для бета-теста IT-специалисты обучили на 240 миллионах примеров картинок с текстовыми описаниями. В данный момент обучение идет на наборе данных из 500 миллионов примеров — в следующих обновлениях качество станет еще лучше.

В свою очередь Сбер презентовал обновленную версию нейросети Kandinsky для генерации изображений по текстовому запросу. Программа также научилась смешивать несколько картинок или создавать изображение на основе другого. Kandinsky 2.1 — это улучшенная версия одноименной нейросети, которую Сбер представил в июне прошлого года. Это уже не первое обновление, версию Kandinsky 2.0 продемонстрировали в ноябре 2022 года. Воспользоваться ею можно на сайте, при помощи команды «Запусти художника» на «умных» устройствах Sber, в приложении «Салют», на платформах ML Space и Fusion Brain, а также в Telegram-боте. Kandinsky 2.1 выдает достаточно качественные фотографии в различных стилях.

Кроме того, Kandinsky 2.1 содержит 3,3 млрд параметров вместо 2 млрд в Kandinsky 2.0 и использует не только закодированное текстовое описание, но и специальное представление изображения моделью CLIP. В таком виде искусственный интеллект формирует представление картинки на основе текстовой информации и подает его на вход основной генеративной модели. Программа распознает запросы на 101 языке (включая русский и английский) и умеет рисовать в различных стилях.

Каждый день в мире появляется миллион картинок и видео, созданных искусственным путем. Современные технологии осваивают и киберпреступники всех мастей, поэтому все чаще звучат предложения маркировать сгенерированный нейросетями контент. В частности, профессор Калифорнийского университета Хани Фарид заявил, что злоумышленники вполне способны сгенерировать видео, в котором, например, президент будет угрожать военными действиями, или директрр предприятия  объявит о падении прибыли. Такие манипуляции могут привести к шторму на рынке или геополитическому кризису, в связи с этим искусственные аудио, видео или фотоматериалы необходимо маркировать. Для этого подойдет водяной знак, который будет содержать уникальный идентификатор и предупреждать, что этот контент сгенерировал ИИ.

Фото: Kandinsky 2.1

анонсы
мероприятий
инновации

Основные сценарии применения ИИ в разработке

 

#, , ,
инновации

В Москве пройдет научно-технологический форум «Робототехника, интеллект машин и механизмов»

7 февраля 2025 года

#, , ,