Исследователи Массачусетского технологического института разработали набор данных под названием VisText для усовершенствования систем автоматических субтитров для графиков, улучшая доступность в их понимании, особенно для людей с плохим зрением.
Набор данных позволяет исследователям обучать модели машинного обучения генерировать подписи к диаграммам различной сложности и содержания в зависимости от потребностей пользователя. Команда обнаружила, что модели, обученные с помощью VisText, постоянно создают точные и семантически насыщенные подписи, которые эффективно описывают тенденции данных и сложные закономерности.
Энджи Боггуст и Бенни Дж. Танг, соавторы исследования, считают, что эти достижения могут способствовать улучшению доступности графиков для людей с нарушениями зрения.
Исследование будет представлено на ежегодном собрании Ассоциации вычислительной лингвистики.