NVIDIA представила свою продвинутую визуальную языковую модель Eagle 2.5, способную анализировать изображения высокого разрешения и продолжительные видеоролики.
Модель ориентирована на задачи, где важен контекст и детализация: она не просто «смотрит», а понимает, что происходит на экране.
Eagle 2.5 позволяет пользователю находить нужный момент в видео, просто описав его текстом. Например, можно задать: «Покажи момент, где человек достает ключ из кармана». И модель сама найдет соответствующий эпизод.
В бенчмарках она показала уверенные результаты: 74,8 балла в MVBench, 77,6 в MLVU и 66,4 в LongVideoBench. В задачах на понимание изображений Eagle 2.5 набрала 94,1 в DocVQA, 87,5 в ChartQA и 80,4 в InfoVQA.
По словам NVIDIA, модель демонстрирует хорошую масштабируемость и может конкурировать с такими гигантами, как GPT-4o от OpenAI и Qwen2.5-VL-72B от Alibaba. Это еще один шаг «зеленых» в сторону мощных мультимодальных ИИ-решений.