Почти тот самый ВАЛЛ·И: Google представила ИИ-модель для роботов

Google DeepMind представила свое последнее творение – RT-2. Эта модель, работающая по принципу VLA, позволяет роботам реагировать на команды на обычном языке, что открывает путь к созданию роботов общего назначения, способных легко ориентироваться в человеческом окружении.

RT-2 использует возможности LLM, аналогичной технологии, лежащей в основе ChatGPT, которая была обучена на огромном количестве текстов и изображений из Интернета. Используя эти данные, RT-2 может распознавать закономерности и выполнять действия даже без специального обучения этим задачам.

Например, робот, использующий эту модель продемонстрировал, что способен выбрасывать мусор, понимая, что считается мусором, даже если его не учили, как утилизировать каждый отдельный предмет. Робот даже может отличить упаковку от банановой кожуры.

Google DeepMind

Такой подход является революционным, так как традиционное обучение роботов предполагает исчерпывающий процесс ручного сбора данных для различных сценариев, что делает нецелесообразным учет всех возможных ситуаций. Способность RT-2 адаптироваться «на лету», без явного программирования, отличает его от других.

Архитектура RT-2 основана на предыдущих разработках Google в области искусственного интеллекта, включая модели PaLI-X и PaLM-E. Настроив предварительно обученную модель VLM на робототехнике и веб-данных, исследователи добились замечательных результатов. В ходе тестирования RT-2 почти в два раза увеличила свою производительность по сравнению с предшественницей, когда столкнулась с новыми, невиданными сценариями.