Сбер выпустил самую продвинутую нейросеть для создания изображений по описанию на русском языке

Сбер представил модель генерации изображений по текстовому описанию на русском языке — Kandinsky. Компания называет её самой большой на данный момент.

Сбер пояснил, что это улучшенная версия нейросети ruDALL-E. Она позволяет генерировать по описанию любые изображения: иллюстрации, материалы для рекламы и т.д.

Предыдущая модель ruDALL-E XL содержала 1,3 млрд параметров. Недавно специалисты Sber AI и SberDevices дообучили систему на 179 млн изображений с текстовыми описаниями. Для этого использовался суперкомпьютер Christofari Neo. Дообученная модель смогла генерировать картинки с произвольным соотношением сторон и повышать их разрешение. Отмечается, что система качественно передаёт различные текстуры, тени и отражения.

Работает всё так: сначала одна нейросеть (Kandinsky) по текстовому описанию генерирует заданное число изображений, затем вторая (ruCLIP Large) выбирает наиболее удачные картинки, а потом третья увеличивает их в размере.

Kandinsky уже доступен в мобильном приложении Салют, на умных устройствах Sber по запросу «Включи художника». А вот и примеры: