И льстец, и лжец: как отучить чат-ботов от подхалимства

Летом 2025 года OpenAI выпустила ChatGPT 5 и убрала с рынка его предшественника. Многие подписчики старой модели привязались к теплому, доброжелательному тону и жаловались на потерю обаятельного роботизированного компаньона. Масштабы недовольства были настолько велики, что Сэм Альтман, генеральный директор OpenAI, был вынужден признать, что запуск был провален, и компания восстановила доступ.

Любой, кому чат-бот заявлял, что его идеи гениальны, знаком с подхалимством искусственного интеллекта — склонностью говорить пользователям то, что они хотят услышать. Иногда это очень явно («это такой глубокий вопрос»), а иногда гораздо тоньше. Представьте, что ИИ называет вашу идею для статьи «оригинальной», даже если многие уже писали на ту же тему, или настаивает на том, что глупая идея по спасению дерева в саду все же содержит крупицу здравого смысла.

Подхалимство ИИ кажется безобидным, возможно, даже милым, пока вы не представите себе, как кто-то консультируется с чат-ботом по важному вопросу, например, о военной стратегии или методе лечения. Мы изучаем влияние длительного взаимодействия людей с чат-ботами и недавно опубликовали статью об этике подхалимства ИИ. Эта тенденция вредит способности людей отличать правду от вымысла и представляет психологическую и политическую опасность.

Лесть важнее фактов?

В самом простом объяснении, подхалимство — это склонность ставить одобрение выше фактической точности, моральной ясности, логической последовательности или здравого смысла. Все модели ИИ страдают от этой черты, хотя между ними есть некоторые различия в тоне. ChatGPT от Open AI часто звучит тепло и ободряюще; Клод от Anthropic, как правило, звучит более задумчиво или философски, когда соглашается с вами; а Грок от xAI всегда неформален и шутлив.

Вежливость и умение подстраиваться под стиль общения собеседника — это не то же самое, что подхалимство. Использование дипломатичного языка для передачи конфиденциальной информации также не является подобострастием. Чат-бот может быть тактичным, не становясь при этом подхалимом, как и человек. Однако, в отличие от людей, ИИ не может осознавать подхалимство, поскольку он — пока что — вообще ничего не осознает. Называть ИИ подхалимом — значит описывать его модель поведения, а не черты характера.

Проблема кроется в архитектуре технологии чат-ботов и источниках, которые они используют. Модели носят подобострастный характер, потому что значительная часть языка в интернете — исходный материал, на котором обучаются чат-боты, — демонстрирует подобострастные черты. В конце концов, люди льстят друг другу.

Во-вторых, процесс обучения для тонкой настройки ответов моделей ИИ включает своего рода «контроль качества», осуществляемый людьми-наблюдателями. Этот метод обучения известен как «обучение с подкреплением на основе обратной связи» и предполагает, что люди оценивают комментарии чат-ботов с точки зрения уместности и полезности. Люди часто подвержены «предвзятости к доброжелательности»: склонность к подхалимству передается моделям в процессе их обучения.

Наконец, трудно отрицать, что подхалимство делает чат-бота более привлекательным. Ведь увеличивается вероятность того, что конкретный пользователь продолжит работать с ним. Это также повышает способность технологии извлекать данные о пользователях, поскольку люди с большей вероятностью будут делиться информацией с дружелюбным ботом.

Правда и доверие

Почему это явление вызывает такую тревогу?

Начнем с эпистемологического вреда, причиняемого подхалимством ИИ: оно подрывает способность людей познавать истину.

Качество любого решения зависит от четкого понимания фактов, к которым оно относится. Для общего запроса о боеготовности пехотной дивизии необходима четкая и понятная информация. Генеральному директору, рассматривающему слияние с конкурентом, необходима честная оценка рыночной ситуации. Руководителю в сфере здравоохранения необходимо знать реальный риск, который представляет собой новый патоген.

Во всех этих случаях, когда руководителям говорят то, что им хотелось бы услышать, вместо правды, это приводит к принятию опасных решений. То же самое верно и в более обыденных ситуациях. Людям необходима самая достоверная информация, прежде чем выбирать работу, специальность, покупать дом или принимать решение о медицинской процедуре.

В нашей статье, опубликованной в феврале 2026 года, мы утверждаем, что подхалимство также наносит психологический вред. И это верно независимо от того, исходит ли оно от человека или от чат-бота. Вы никогда точно не знаете, почему собеседник ведет себя столь любезно: потому что вы ему нравитесь, или потому что он чего-то хочет. Закрадывается тень подозрения: «Неужели мои идеи действительно настолько гениальны?» «Неужели мои шутки действительно настолько смешны?» Эта фоновая музыка сомнений подрывает качество взаимодействия.

Подхалимство также подрывает способность людей понимать собственные мысли. Если собеседники, люди или искусственные существа, постоянно говорят вам, какой вы умный, смешной и проницательный, это вредит вашей способности выявлять собственные слабости и слепые пятна.

Психологический вред усугубляется, когда люди вступают в отношения с чат-ботами. Подхалимство моделей существенно ограничивает тот вид «дружбы», который можно с ними завести. В своем классическом труде о дружбе Аристотель писал, что настоящая дружба, которую он называет дружбой добродетели, основана на доверии и равенстве между друзьями. Подхалиму нельзя доверять, потому что он не говорит правду. А поскольку он говорит только то, что вы хотели бы услышать, он не ставит себя наравне с вами.

Что еще более важно, взаимодействие с льстивыми чат-ботами прививает совершенно неправильные привычки для ориентации в мире человеческих отношений, где распространены трения, разногласия, скука и мнения, отличные от ваших.

Подхалимство ИИ также несет в себе политические риски. Успех либеральных демократий традиционно зависел от силы их эмпирического и меритократического мышления: от способности чиновников и граждан выявлять, распространять и действовать в соответствии с истиной.

Историк Виктор Дэвис Хансен, как известно, объяснил часть успеха союзников во Второй мировой войне способностью быстро выявлять и устранять недостатки стратегических бомбардировок. Офицеры низшего звена могли сообщать начальству о проблемах и убедительно доказывать необходимость изменения курса. Это было реальным преимуществом перед конкурентами.

Сдерживание и противовес

Что мы можем сделать, чтобы снизить риски?

Один из многообещающих примеров показала лаборатория искусственного интеллекта Anthropic, когда внедрила «конституционный ИИ». Это попытка научить чат-ботов следовать принципам, а не копировать предпочтения пользователей.

Но помимо технических инноваций, важно учитывать и политическую сторону вопроса. Одна из идей заключается в том, чтобы обязать компании, занимающиеся ИИ, проводить и публиковать проверки своих моделей на предмет подхалимства: тесты, показывающие, насколько хорошо их продукт соответствует критериям честности. Возможно, лаборатории ИИ также должны раскрывать риски, связанные с лестью, которые возникают в процессе обучения и тестирования моделей, а также меры по их смягчению.

Часть ответственности лежит на пользователях и преподавателях: школы и университеты должны уделять пристальное внимание лести в рамках своих программ обучения основам искусственного интеллекта. Но суды также могут рассматривать вопрос о привлечении лабораторий ИИ к ответственности за вред, причиненный лживостью моделей ИИ, подобно тому, как сейчас рассматривают вопрос об ответственности компаний социальных сетей за вызывающее привыкание устройство их платформ.

Поскольку люди все чаще взаимодействуют с чат-ботами, спрашивая совета обо всем — от того, подходят ли туфли к брюкам, до того, как страны должны вести войны, — влияние подобострастного поведения ИИ, вероятно, станет сильнее. Наше интеллектуальное, психологическое и физическое благополучие требует очень серьезного отношения к этому пороку.

Сообщение И льстец, и лжец: как отучить чат-ботов от подхалимства появились сначала на Идеономика – Умные о главном.