Специалисты Google разработали систему, которая позволяет распознавать язык жестов в видеозвонках. Её точность достигает 80-90%.
Как пишет издание «Хайтек», алгоритмы машинного обучения могут определять «активно говорящего», но не заниматься распознаванием, если собеседник просто двигает руками или головой. Отмечается, что до сих пор ни один сервисов видеозвонков не мог так делать — системы реагировали на любой звук или жест.
Разработка Google распознаёт язык жестов совсем с небольшими задержками и с высокой эффективностью. Сначала видео прогоняют через модель под названием PoseNet, которая распознаёт положение тела и рук в каждом кадре. Затем это сравнивается с жестами из языка.
Модель способна распознавать жесты с 80% точностью, а с дополнительной оптимизацией показатель достигает 91,5%.