Сбер представил модель генерации изображений по текстовому описанию на русском языке — Kandinsky. Компания называет её самой большой на данный момент.
Сбер пояснил, что это улучшенная версия нейросети ruDALL-E. Она позволяет генерировать по описанию любые изображения: иллюстрации, материалы для рекламы и т.д.
Предыдущая модель ruDALL-E XL содержала 1,3 млрд параметров. Недавно специалисты Sber AI и SberDevices дообучили систему на 179 млн изображений с текстовыми описаниями. Для этого использовался суперкомпьютер Christofari Neo. Дообученная модель смогла генерировать картинки с произвольным соотношением сторон и повышать их разрешение. Отмечается, что система качественно передаёт различные текстуры, тени и отражения.
Работает всё так: сначала одна нейросеть (Kandinsky) по текстовому описанию генерирует заданное число изображений, затем вторая (ruCLIP Large) выбирает наиболее удачные картинки, а потом третья увеличивает их в размере.
Kandinsky уже доступен в мобильном приложении Салют, на умных устройствах Sber по запросу «Включи художника». А вот и примеры: