«Яндекс» и Сбер презентовали нейросети для генерации изображений
Отечественные компании активно участвуют в гонке нейросетей и им уже есть, что предложить пользователям.
«Яндекс» создал прототип нейросети для генерации изображений — это своего рода аналог DALL-E и Midjourney. После окончательной доработки приложение споcобно будет создавать баннеры, иллюстрации, изображения для интернет-витрин и не только.
Сейчас приложение «Шедеврум» доступно в Google Play и App Store и работает в бета-режиме. Чтобы поучаствовать в бета-тестировании, следует скачать приложение, подать заявку и дождаться своей очереди. В будущем такую возможность получат все зарегистрированные пользователи.
«Шедеврум» понимает русский и английский языки, но для лучшего результата, нужно делать очень подробное описание. Нейросеть учитывает особые пожелания (например, «фотореализм» или «высокая детализация»), способна подражать известным живописцам и работать в заданных художественных стилях, отмечает пресс-служба «Яндекса».
Нейросеть рисует изображения по методу каскадной диффузии: сначала создает картинки в соответствии с запросом, а затем поэтапно увеличивает их разрешение, насыщая деталями. Первую версию генеративной модели для бета-теста IT-специалисты обучили на 240 миллионах примеров картинок с текстовыми описаниями. В данный момент обучение идет на наборе данных из 500 миллионов примеров — в следующих обновлениях качество станет еще лучше.
В свою очередь Сбер презентовал обновленную версию нейросети Kandinsky для генерации изображений по текстовому запросу. Программа также научилась смешивать несколько картинок или создавать изображение на основе другого. Kandinsky 2.1 — это улучшенная версия одноименной нейросети, которую Сбер представил в июне прошлого года. Это уже не первое обновление, версию Kandinsky 2.0 продемонстрировали в ноябре 2022 года. Воспользоваться ею можно на сайте, при помощи команды «Запусти художника» на «умных» устройствах Sber, в приложении «Салют», на платформах ML Space и Fusion Brain, а также в Telegram-боте. Kandinsky 2.1 выдает достаточно качественные фотографии в различных стилях.
Кроме того, Kandinsky 2.1 содержит 3,3 млрд параметров вместо 2 млрд в Kandinsky 2.0 и использует не только закодированное текстовое описание, но и специальное представление изображения моделью CLIP. В таком виде искусственный интеллект формирует представление картинки на основе текстовой информации и подает его на вход основной генеративной модели. Программа распознает запросы на 101 языке (включая русский и английский) и умеет рисовать в различных стилях.
Каждый день в мире появляется миллион картинок и видео, созданных искусственным путем. Современные технологии осваивают и киберпреступники всех мастей, поэтому все чаще звучат предложения маркировать сгенерированный нейросетями контент. В частности, профессор Калифорнийского университета Хани Фарид заявил, что злоумышленники вполне способны сгенерировать видео, в котором, например, президент будет угрожать военными действиями, или директрр предприятия объявит о падении прибыли. Такие манипуляции могут привести к шторму на рынке или геополитическому кризису, в связи с этим искусственные аудио, видео или фотоматериалы необходимо маркировать. Для этого подойдет водяной знак, который будет содержать уникальный идентификатор и предупреждать, что этот контент сгенерировал ИИ.
Фото: Kandinsky 2.1
мероприятий