Нейросеть ruDALL-E понимает русский

Сбер создал первую в мире нейронную сеть ruDALL-E, которая способна создавать изображения на основе текстового описания на русском языке. Использовать ее можно для создания вариантов дизайна интерьера, стоковых изображений или векторных иллюстраций, материалов для рекламы, копирайтинга, архитектурного и промышленного дизайна. Попробовать ruDALL-E можно на сайте https://rudalle.ru/.

Варианты модели

Нейросеть обучается одновременно на двух видах данных – картинках и текстах, позволяет создавать неограниченное число новых изображений по заданному описанию. Есть два варианта модели:

  • ruDALL-E XL, содержащая 1,3 млрд параметров;
  • ruDALL-E 12B с 12 млрд параметров.

Моделью ruDALL-E XL можно воспользоваться бесплатно, загрузив ее с сервиса Github. Обе модели также вскоре будут доступны на платформе ML Space в хабе предобученных моделей и датасетов DataHub от SberCloud.

Этапы создания изображений

Создание изображений при помощи ruDALL-E происходит в три этапа: сначала одна нейросеть принимает текст на вход и генерирует заданное число картинок, затем следующая выбирает, какие из них наиболее удачные и максимально соответствуют описанию, а третья увеличивает их в размере без потери качества.

Таким образом можно получить неограниченное количество новых изображений, подходящих под указанные характеристики.

На базе суперкомпьютера Кристофари

Архитектура модели DALL-E для английского языка была впервые представлена OpenAI в 2021 г. Однако эта модель так и не была полностью выложена в открытый доступ.

На основе публикации OpenAI команды SberDevices и Sber AI при содействии SberCloud воспроизвели код и запустили обучение нейросети на платформе ML Space на базе суперкомпьютера Кристофари, получив аналогичный результат для русского языка. В результате это самая большая модель такого рода в мире, работающая с русским языком: обучение заняло 23 тыс. GPU-часов на массиве данных из 120 млн пар текст – изображение.

Проект по обучению ruDALL-E стал самым большим нейросетевым вычислительным проектом в России и СНГ.

Технология и бизнес-потребности

«Помимо вклада в прогресс в области ИИ, генерация изображений закрывает две важных потребности современного бизнеса – возможность получить уникальную картинку под собственное описание, а также в любой момент создавать необходимое количество licence-free-иллюстраций. При этом создание «мультимодальных» нейронных сетей, которые обучаются сразу на нескольких видах данных, даже сейчас, в эпоху big data и огромных возможностей поиска, будет очень востребованным, поскольку решает задачи на принципиально ином уровне, – полагает исполнительный вице-президент Сбербанка, CTO Сбера, руководитель блока «Технологии» Давид Рафаловский. – Технология пока совсем новая, первые шаги в этом направлении были сделаны только в 2020 г., а еще в 2018–2019 гг. даже постановку такого рода задачи нельзя было себе представить. ruDALL-E можно считать настоящим прорывом для русскоязычной индустрии».

 

Следите за нашими новостями в Телеграм-канале Connect


Поделиться:



Следите за нашими новостями в
Телеграм-канале Connect

Спецпроект

Медицинские задачи для ИИ

Подробнее
Спецпроект

Цифровой Росатом

Подробнее


Подпишитесь
на нашу рассылку