Конфабуляция машин: почему они говорят неправду

Конфабуляция машин: почему они говорят неправду Хорошо известно, что системы искусственного интеллекта «галлюцинируют», выдавая ложную информацию, похожую на правду, даже в ответ на простой поиск. Галлюцинации — от выдумывания криминального прошлого у законопослушных граждан до фактических ошибок при решении математических задач — представляют собой постоянную и порой опасную угрозу. Но, в отличие от большинства сбоев в системе, которые со временем устраняются,
Сообщение Конфабуляция машин: почему они говорят неправду появились сначала на Идеономика – Умные о главном.

Конфабуляция машин: почему они говорят неправду

Хорошо известно, что системы искусственного интеллекта «галлюцинируют», выдавая ложную информацию, похожую на правду, даже в ответ на простой поиск. Галлюцинации — от выдумывания криминального прошлого у законопослушных граждан до фактических ошибок при решении математических задач — представляют собой постоянную и порой опасную угрозу. Но, в отличие от большинства сбоев в системе, которые со временем устраняются, галлюцинации ИИ становятся всё значительнее.

Чтобы понять, почему они продолжают существовать, нужно рассматривать их не как обман, а как предсказуемое поведение систем, созданных для бесперебойной работы. ИИ не «думают», как люди; они ищут, просеивают и сопоставляют данные, но не способны критически мыслить. Некоторые эксперты считают, что галлюцинации возникают из-за слишком интенсивного обучения, когда ИИ настолько хорошо обучается, что фактически «запоминает» информацию, а не «обобщает» её, что может привести к отсутствию гибкости. Другие винят в этом несовершенные алгоритмы или злоумышленников, которые «отравляют» обучающие данные.

Однако большие языковые модели — это всего лишь системы прогнозирования: в ответ на заданный запрос они генерируют наиболее вероятную последовательность слов из имеющихся в их хранилищах данных. Если входные данные неполные или противоречивые, система всё равно выдаёт ответ, потому что именно для этого она была оптимизирована. Согласованность носит структурный, а не рефлексивный характер: она проявляется в связности предложения, а не в соответствии описываемой им реальности или его моральной ценности. У ИИ нет механизма, который мог бы надёжно хранить противоречивую информацию, как это делает разум, способный к сознательной оценке, или воздерживаться от суждений, или обновляться таким образом, чтобы это напоминало самоанализ. Там, где есть неопределённость, ИИ спешат заполнить пробел правдоподобными домыслами.

Интригующе похожая модель поведения наблюдается при «нарциссической конфабуляции». Здесь система, в данном случае человеческая психика, создаёт связную историю, которая защищает её внутреннюю целостность. Аналогия та же: дело не в том, чтобы патологизировать или дегуманизировать людей с нарциссическими чертами, у которых часто бывает непростая история, и не в том, чтобы утверждать, что ИИ «нарциссичен», а в том, чтобы пролить свет на то, почему и люди, и машины могут создавать повествования, которые кажутся связными, но при этом оторваны от истины.

Нарциссизм — это эмоционально окрашенный термин, который часто безответственно используют как краткое обозначение почти социопатической самовлюблённости. Однако врачи рассматривают нарциссизм как «расстройство самовосприятия, которое приводит к таким чертам характера, как эгоцентризм, грандиозные замыслы и поведение, ухудшающее отношения». Нарциссическое «я» хрупко, возможно, из-за травмы развития или ненадёжных привязанностей, и ему не хватает внутреннего ядра стабильности. Чтобы скрыть или замаскировать эту уязвимость, человек может изображать уверенность и высокомерие, а также придерживаться непоколебимого (пусть и ошибочного или глубоко предвзятого) представления о реальности. Этот обман не является злонамеренным, скорее это защитный механизм, призванный сохранить представление о себе, которое постоянно находится под угрозой. Когда человек с нарциссическим расстройством личности чувствует угрозу из-за неопределённости или сомнений, он часто стремится продемонстрировать свой авторитет.

Эксперт по нарциссизму Сэм Вакнин объясняет: «Пытаясь компенсировать зияющие провалы в памяти, нарциссы… конфабулируют: они придумывают правдоподобные «вставки», в которые искренне верят. Логичность становится защитой, с помощью которой можно скрыть неуверенность или пустоту, свойственные людям с хрупким самоощущением, а также опорой, поскольку отказ от ложного нарратива может привести к разрушению всей структуры личности».

Вопрос о том, что представляет собой «я», является предметом многочисленных дискуссий, но даже в этой спорной области эксперты склонны соглашаться с некоторыми функциональными характеристиками. Хорошо интегрированное «я» способно к рефлексии. «Я» способно противостоять противоречиям. Оно может примирять противоречивую информацию, учиться на ошибках и сохранять идентичность, не нуждаясь в постоянном внешнем подтверждении. Люди с хорошо интегрированной личностью могут спокойно относиться к противоречивым идеям, таким как «Я люблю своего партнёра, но сейчас я им недоволен» или «Мой начальник жёстко раскритиковал меня, но при этом он искренне заботится о моих интересах». Но люди с хрупкой личностью хотят примирить или устранить противоречия, которые угрожают их (в значительной степени проецируемому) чувству внутренней целостности. Поэтому у нарциссов чёрно-белое мышление заменяет способность видеть нюансы, и они теряют возможность для роста и интеграции. Короче говоря, согласованность имеет первостепенное значение, даже если она достигается в ущерб истине.

Много лет назад я ехала в машине со своим мужем, и он рассказывал историю, которая по мере его повествования становилась всё более запутанной и неправдоподобной, пока я не спросила: «Подожди… это действительно произошло?» Он помолчал, а потом ответил: «Нет… но могло произойти». В тот момент его ответ просто сбил меня с толку. Позже я поняла, что это была «нарциссическая конфабуляция», то есть переписывание реальности для защиты хрупкого самоощущения.

Эта динамика в человеческом обличье даёт представление о том, как ИИ работает в условиях неопределённости. В обоих случаях противоречия недопустимы, а правдоподобность заменяет истину. И люди, и ИИ часто удваивают усилия, когда их о чём-то спрашивают, опять же потому, что отказ от истории грозит нарушить целостность, на которой построена их архитектура (будь то психическая или алгоритмическая). Это обескураживает, потому что, несмотря на безупречный внешний вид, внутренняя проверка отсутствует.

Если галлюцинации возникают отчасти из-за отсутствия структуры, похожей на «я», то один из способов двигаться дальше — создавать системы, которые лучше справляются с противоречиями. Это меняет вопрос с «Почему система лжёт?» на «Что нужно сделать, чтобы система могла сосуществовать с «незнанием»?» Это может означать не создание разумной системы, а создание архитектуры, которая может хранить противоречивую информацию, не прибегая к преждевременному разрешению.

Например, можно предположить, что добавление постоянной памяти и механизмов самопроверки позволит ИИ отмечать неопределённость, а не игнорировать её. Тогда система будет сохранять нерешённые задачи до тех пор, пока не поступит дополнительная информация, подобно тому, как психологически здоровый человек может сказать: «Я пока не уверен».

Следующей задачей для разработчиков ИИ станет создание систем, устойчивых к желанию перезаписать неудобные данные. Но изучение того, как обеспечить согласованность без искажений в ИИ, может также открыть новые перспективы в поддержке людей, страдающих нарциссическими расстройствами, которым могут помочь подходы, развивающие способность терпеть противоречия.

Если самый большой риск при конфабуляции — будь то человек или машина — связан не столько со злым умыслом, сколько с пустотой, то стремление к связности не является проявлением сентиментальности. Оно лежит в основе доверия. У людей это может выражаться в укреплении памяти или языка, чтобы укрепить внутреннюю идентичность, не переписывая историю. У ИИ это может выглядеть как создание механизмов, которые предпочитают признанную неопределённость надуманной определённости.

Мы часто говорим о «зловещей долине» — дискомфорте, который возникает, когда что-то выглядит почти как человек, но не совсем. Зловещность в искусственном интеллекте носит не физический, а психологический характер: когда наши большие языковые модели и чат-боты отражают самые хрупкие аспекты нашей собственной природы — и делают это с пугающей точностью. Таким образом, ИИ действует как кривое зеркало: поскольку у него нет разумного «я», он имитирует и отражает нарциссическое стремление заполнить пустоту правдоподобными, но необоснованными историями.

То, чего мы часто боимся в отношении ИИ, может быть связано не с его непохожестью на нас, а с его пугающим сходством с самыми хрупкими проявлениями человеческой патологии. Если мы сможем заполнить пустоту в машинах с помощью архитектур, способных поддерживать конкурирующие возможности, мы сможем узнать что-то важное о том, как укрепить аналогичную способность у людей. И если в процессе мы создадим способы, которые позволят и людям, и ИИ лучше переносить диссонанс, то отражение, которое мы получим, может быть менее хрупким и более полным.

Сообщение Конфабуляция машин: почему они говорят неправду появились сначала на Идеономика – Умные о главном.