Создан новый бенчмарк для проверки математических способностей ИИ

Группа ученых из США и Великобритании разработала новый бенчмарк для оценки математических способностей искусственного интеллекта (ИИ). Он предназначен для того, чтобы проверять, насколько эффективно ИИ может решать крайне сложные задачи, которые не под силу даже самым продвинутым моделям.

С каждым годом ИИ-системы, становятся все более сложными и умными. Однако в одном из важных аспектов они все еще уступают человеку — решении сложных математических задач. Чтобы улучшить математические способности своих моделей, разработчики создали несколько тестов, среди которых MATH и GSM8K. Но, как отмечают ученые, эти тесты не дают полной картины, так как их уровень сложности не так высок. Поэтому было решено создать новый тест — FrontierMath.

Для этого ученые обратились к ведущим математикам, которые предложили сотни уникальных задач. Эти задачи охватывают широкий спектр тем, от теории чисел до алгебраической геометрии. Чтобы успешно справиться с тестом, ИИ должен проявить не только вычислительные способности, но и креативность, глубокое понимание предмета и инновационный подход. По результатам первых тестов модели ИИ, которые хорошо справлялись с более легкими задачами, не смогли набрать более 2% на новом бенчмарке.