Apple представила ИИ, создающий 3D-сцены по трем фотографиям

Команда машинного обучения Apple совместно с учёными из университетов Нанкина и Гонконга разработала новую модель искусственного интеллекта (ИИ) под названием Matrix3D. Она способна воссоздавать трёхмерные объекты и сцены всего по трём двумерным изображениям.

Matrix3D относится к так называемым большим фотограмметрическим моделям. В отличие от традиционных методов, где каждый этап — от определения ракурса до оценки глубины — требует отдельных моделей, Matrix3D объединяет все процессы в одной системе. Это делает построение 3D-моделей быстрее и потенциально точнее.

Во время обучения модель использовала стратегию маскировки данных, при которой случайные части входной информации скрывались. Такой подход заставляет систему «достраивать» недостающие фрагменты, что позволяет ей работать даже с неполными или небольшими наборами данных. Похожий принцип применялся в ранних трансформерных моделях, положивших начало развитию ИИ-систем вроде ChatGPT.

Matrix3D может оказаться особенно полезной для технологий дополненной и виртуальной реальности, включая гарнитуру Apple Vision Pro. Благодаря способности создавать полноценные 3D-сцены всего из трёх изображений, такая система может использоваться в различных сферах — от дизайна и архитектуры до игр и цифровых двойников.

Apple