Как и у миллионов людей, у меня есть дислексия. Вы, вероятно, никогда не узнаете об этом, если только не окажетесь на пассажирском сиденье моей машины. Тогда вы станете кричать: «Я сказал налево!», когда я странным образом поверну направо. И если вы спросите, почему я поворачиваю не туда, то все просто: я не могу запомнить, какая сторона правая, а какая левая. Для меня это невозможно.
Я знаю, что это кажется странным. В конце концов, я без проблем различаю другие вещи: верх от низа, черное от белого, вилки от ложек. И все же я не могу отличить лево от право. Мой мозг устроен иначе. Это верно для многих дислексиков, и я подозреваю, что мультимодальные большие языковые модели (MLLM) тоже могут быть дислексиками.
Прежде чем я расскажу о недавнем исследовании, которое заставило меня задуматься об этом вопросе, позвольте мне объяснить, что значит — иметь такую форму дислексии. Я попробую описать, что происходит внутри моего мозга. Я также объясню, почему дислексия, которая усложняет жизнь миллионам студентов по всему миру, может быть когнитивным даром, способствующим творчеству и инновациям.
Жизнь с дислексией
Когда я был ребенком с дислексией, мне было очень трудно учиться в школе. Это связано с тем, что многие основы, которые необходимо изучать, были созданы людьми, которые обрабатывают пространственную информацию иначе, чем я. Например, мы, люди, создали две строчные буквы в английском алфавите «b» и «d», которые отличаются только тем, что одна указывает налево, а другая — направо. В течение десятилетий я не мог их различить. Это очень распространенная проблема среди дислексиков.
Аналогично, многие правила математики используют алгебраические действия, которые зависят от направления «лево-право». То же самое верно и для определения времени по традиционным циферблатам часов: все становится понятным только для тех, кто знает разницу между «по часовой» и «против часовой». С календарями тоже сложно, потому что их пространственное расположение зависит от направленности слева направо. В результате выполнение математических действий и умение пользоваться часовыми циферблатами и календарями — обычные проблемы для многих детей с дислексией.
Эти трудности не заканчиваются в начальной школе. Я до сих пор помню, как на первом курсе Стэнфорда на уроке физики неправильно решил задачу. В физике существует простая схема, называемая «правилом правой руки», для определения направления векторов. К сожалению, когда я сдавал тест, я использовал левую руку. Это дислексия. Она не имеет никакого отношения к концентрации внимания или интеллекту. Мозг просто работает иначе, чем у людей, создавших культурные традиции, которые мы используем в символических языках, математике и многих отраслях науки.
Чем же отличается мозг дислексика? Я могу говорить только за себя, но, потратив годы на размышления о странном сочетании сильных и слабых сторон, обусловленных тем, как я обрабатываю пространственную информацию, я кажется понял, в чем дело. Все это связано с «глазами разума». Под этим я подразумеваю то, как я визуализирую вещи в сознании и храню пространственные элементы в памяти.
Большинство людей смотрят на мир мысленным взором так же, как физическими глазами, то есть, от первого лица, если только они не прилагают целенаправленных усилий, чтобы отклониться от этой перспективы. В этом есть смысл, потому что именно так мозг воспринимает визуальный контент (то есть с позиции первого лица). Но когда я мысленно представляю себе какие-то вещи (предметы, обстановку, изображения или текст), я не визуализирую их с фиксированной перспективы от первого лица. Я думаю о них со всех сторон сразу, скорее как о расплывчатом облаке перспектив, чем как о единой, четкой позиции.
Проблема в том, что если мозг запоминает символ «b» со всех точек зрения сразу, он становится идентичным символу «d». Дело не в том, что я путаю эти две буквы. Это один и тот же символ, разница лишь в том, представляете ли вы его спереди или сзади. То же самое можно сказать и о циферблатах часов. Как можно запомнить разницу между ходом по часовой и против часовой стрелки, если одновременно представлять объект с разных сторон?
Это возвращает меня к мультимодальным большим языковым моделям, которые обрабатывают и интерпретируют изображения и видео. Эти модели поражают воображение. Они могут сравниться или превзойти человеческую производительность в бесчисленных задачах, например, диагностировать онкологию по визуальным слайдам лучше, чем человек. И все же недавнее исследование показало удивительный результат: все основные мультимодальные модели сегодня с трудом определяют время на аналоговых часах. Согласно результатам исследования, GPT-4o был способен правильно читать циферблаты часов только в 8% случаев. Claude-3-5-sonnet оказался хуже: 6%. Gemini 2.0 был лучшим, но все равно его результат — это скромные 20%.
Это удивительно низкие показатели, особенно если учесть, что эти модели искусственного интеллекта могут так хорошо работать в других задачах. Кроме того, в том же исследовании было обнаружено, что модели MLLM также испытывают трудности, когда их просят понять календари. Это удивительно похоже на дислексию у людей, причем не только в простых вещах, вызывающих проблемы (часы и календари). Обескураживает сочетание сильных и слабых сторон, которое позволяет человеку вроде меня получить степень доктора философии и успешно работать в качестве компьютерщика и инженера, но при этом провалить тест «поверните здесь налево».
Прежде чем двигаться дальше, я должен был проверить это на себе, а не полагаться на научную работу. Итак, я попросил двух популярных чат-ботов сказать мне, сколько секунд показывает красная стрелка на следующих часах:
Вот два ответа, которые я получил:
Вторая стрелка (тонкая красная стрелка) указывает немного дальше 2. Каждая цифра также означает 5 секунд для второй стрелки. Похоже, что она находится на первой маленькой отметке после 2, так что это будет 2*5+1= 11 секунд (Gemini Advanced).
Секундная стрелка (красная) указывает на 2-ю отметку после 2, что соответствует 12 секундам. (ChatGPT 4.0.)
Правильный ответ: чуть меньше 9 секунд, но оба чат-бота неверно указали это число (11 секунд для Gemini и 12 секунд для ChatGPT). Это удивительная ошибка, особенно если учесть, что обе модели правильно подошли к решению задачи, посмотрев на расстояние до «2» на циферблате.
Теперь я уверен, что модель «видит», на какую сторону «2» указывает секундная стрелка. Так почему же оба чат-бота допустили ошибку, которая, как оказалось, является той же самой, что и у меня в детстве? Ну, если вы путаете движение по часовой стрелке с движением против часовой стрелки, вы можете сказать, что это «немного дальше двойки», если вы представляете, что стрелка движется в неправильном направлении.
Сбивает с толку то, насколько хорошо модели справляются с другими визуальными задачами. В 2023 году я участвовал в исследовании пространственной оценки, в котором мы попросили 240 человек оценить количество шариков жевательной резинки в банке по фотографии. Средний человек ошибся на 55%. Мы также попросили ChatGPT 4, и он оказался значительно точнее, оценив количество шариков с ошибкой в 42%. Очевидно, что большие языковые модели могут превзойти человека в сложных визуально-пространственных задачах, и все же средний первоклассник, скорее всего, лучше умеет обращаться с часами.
Что это дает нам в отношении современных систем ИИ?
Для меня это говорит о том, что большие языковые модели хранят и обрабатывают пространственную информацию настолько иначе, чем люди, которые иногда испытывают трудности с культурными условностями, предполагающими, что зритель сохраняет определенную перспективу. Когда вы просите ИИ интерпретировать образец тканей и определить, является ли он злокачественным, точность не зависит от ориентации в пространстве. Но когда вы просите его определить время на циферблате часов, он должен осмыслить определенное направление, иначе система будет совершать ошибки.
У людей такие ошибки считают «неспособностью к обучению», и для миллионов дислексиков это создает ежедневные проблемы, особенно для детей. Тем не менее способность воспринимать мир с нетрадиционной точки зрения — это тоже когнитивный дар. Возможно, это одна из причин, почему люди, страдающие дислексией, часто обладают высоким творческим потенциалом и новаторскими способностями. Так, исследования показали, что дети с дислексией показывают значительно более высокие результаты в тестах на креативность, чем обычные люди. Кроме того, многие взрослые дислексики приписывают своему «изъяну» успех в различных областях.
Я уверен, что моя карьера сложилась благодаря дислексии. В колледже я увлекся изучением того, как люди обрабатывают пространственную информацию, и это вдохновило меня на получение докторской степени, посвященной улучшению человеческого восприятия путем добавления виртуального контента в реальный мир. Это привело меня в Группу сенсорной связи с людьми в Исследовательской лаборатории ВВС, где я разработал первую систему смешанной реальности, и с тех пор я работаю в области VR, AR и ИИ. Я слышал много подобных историй от дислексиков, которые используют свои уникальные возможности для инноваций в самых разных областях: от художников и кинематографистов до ученых, писателей и даже многих спортсменов.
Я полагаю, что по мере развития систем ИИ мы узнаем еще больше о преимуществах и препятствиях, связанных с радикально иным восприятием мира. В конце концов, мы не знаем, насколько умными в итоге станут системы ИИ, но мы точно знаем, что они учатся, думают, визуализируют и рассуждают не так, как наш мозг.
Сообщение Гениальность и дислексия: почему ИИ не справляется с простыми задачами появились сначала на Идеономика – Умные о главном.