Роботы освоили сложные задачи с помощью обратной связи от человека

Ученые из Университета Калифорнии в Беркли разработали метод, который позволяет роботам быстрее и точнее осваивать сложные задачи. Новый подход сочетает обучение с подкреплением и корректировку действий робота человеком в реальном времени.

Система, названная Human-in-the-Loop Sample Efficient Robotic Reinforcement Learning (HiL-SERL), обучает роботов на основе собственных попыток и обратной связи от человека. Такой подход позволил роботам освоить непростые действия, включая сборку компьютерной платы, установку автомобильных деталей и переворачивание яиц на сковороде, с 100% точностью.

Программа ускоряет обучение: роботы осваивают новые задачи за один-два часа. Человеческое вмешательство требуется только на первых этапах, затем роботы постепенно учатся самостоятельно корректировать свои действия. Таким образом, машина учитывает как успешные, так и неудачные попытки, анализируя их для улучшения навыков.

Кроме стандартных упражнений, исследователи проверяли адаптивность роботов, создавая непредвиденные ситуации. Например, они искусственно заставляли захват робота отпускать предмет или смещали детали во время сборки, чтобы машины научились реагировать на изменяющиеся условия.

HiL-SERL показала лучшие результаты по сравнению с традиционным методом «копирования поведения», используя то же количество демонстраций. Роботы становились более быстрыми и точными, что особенно важно для промышленных и «сделанных под заказ» процессов в электронике, автомобилестроении и авиации.