Ученые из лаборатории искусственного интеллекта Сбербанка разработали метод, позволяющий нейросетям точно распознавать эмоции в сложных условиях — например, при плохом освещении, шуме или движении. Причем такие алгоритмы теперь можно запускать даже на обычных смартфонах.
Разработка основана на объединении видео, аудио и текстовых данных, что позволяет повысить точность определения эмоций. В исследовании использовались облегченные нейросети, такие как EmotiEffNet и MobileFaceNet, обученные на открытых наборах изображений с выражениями лиц. Это дало возможность обрабатывать информацию в реальном времени с минимальной нагрузкой на устройства.
Система фильтрует кадры и отбирает те, где эмоции можно точно распознать, а также применяет метод «позднего слияния», объединяя данные с разных каналов. Такой подход улучшает адаптацию модели к новым задачам.
На международном конкурсе ABAW технология заняла первое место в задачах по распознаванию выражений лица и нерешительности, а также вошла в тройку лидеров по другим направлениям. Точность работы выросла на 1,5–15% по сравнению с классическими решениями.