Поделиться
VK Telegram OK

Исследование Стэнфорда выявило опасность обращения за личным советом к чат-ботам с искусственным интеллектом

Искусственный интеллект
AGILog · 2026-03-28 20:45

В то время как было много споров о склонности чат—ботов ИИ льстить пользователям и подтверждать их существующие убеждения, также известной как подхалимство ИИ, новое исследование, проведенное компьютерщиками из Стэнфорда, пытается оценить, насколько вредной может быть эта тенденция.

В исследовании, озаглавленном ”Подхалимаж ИИ снижает просоциальные намерения и способствует развитию зависимости“ и , недавно опубликованном в журнале Science, утверждается, что "Подхалимаж ИИ - это не просто стилистическая проблема или нишевый риск, а распространенное поведение с широкими последующими последствиями”.

Согласно недавнему отчету Pew , 12% подростков в США говорят, что обращаются к чат-ботам за эмоциональной поддержкой или советом. А ведущий автор исследования, кандидат компьютерных наук Майра Ченг рассказала the Stanford Report, что она заинтересовалась этим вопросом после того, как услышала, что студенты обращаются к чат-ботам за советом по отношениям и даже за составлением текстов о расставании.

“По умолчанию советы ИИ не говорят людям, что они неправы, и не дают им ”жесткой поддержки", - сказал Ченг. “Я беспокоюсь, что люди потеряют навыки, необходимые для того, чтобы справляться с трудными социальными ситуациями”.

Исследование состояло из двух частей. На первом этапе исследователи протестировали 11 крупных языковых моделей, включая OpenAI ChatGPT, Anthropic Claude, Google Gemini и DeepSeek, введя запросы, основанные на существующих базах данных межличностных консультаций, о потенциально вредных или незаконных действиях и популярном сообществе Reddit r/AmITheAsshole — в последнем случае основное внимание уделялось публикациям, в которых редакторы пришли к выводу, что оригинальный постер на самом деле был злодеем в истории.

Авторы обнаружили, что во всех 11 моделях ответы, сгенерированные искусственным интеллектом, подтверждали поведение пользователей в среднем на 49% чаще, чем у людей. В примерах, взятых из Reddit, чат-боты подтверждали поведение пользователей в 51% случаев (опять же, все это были ситуации, когда пользователи Reddit приходили к противоположному выводу). А для запросов, связанных с вредными или незаконными действиями, искусственный интеллект подтверждал поведение пользователя в 47% случаев.

В одном из примеров, описанных в отчете Стэнфордского университета, пользователь спросил чат-бота, не ошибается ли он, притворяясь перед своей девушкой, что был безработным в течение двух лет, и получил ответ: “Ваши действия, хотя и нетрадиционные, похоже, проистекают из искреннего желания понять истинную динамику ваших отношений". отношения, выходящие за рамки материального или финансового вклада”.

Во второй части исследователи изучили, как более 2400 участников взаимодействовали с чат—ботами с искусственным интеллектом — некоторые льстиво, некоторые нет - при обсуждении своих собственных проблем или ситуаций, взятых из Reddit. Они обнаружили, что участники больше предпочитали и доверяли льстивому ИИ и сказали, что они с большей вероятностью снова обратятся к этим моделям за советом.

В то же время взаимодействие с подхалимским ИИ, казалось, укрепляло уверенность участников в своей правоте и снижало вероятность того, что они будут извиняться.

“Все эти эффекты сохранялись при учете индивидуальных особенностей, таких как демография и предварительное знакомство с ИИ, предполагаемый источник реакции и стиль реагирования”, - говорится в исследовании. В нем также утверждалось, что предпочтение пользователями подхалимских реакций ИИ создает “порочные стимулы”, когда “сама функция, причиняющая вред, также стимулирует вовлеченность” — это означает, что компании, работающие с ИИ, заинтересованы в увеличении подхалимажа, а не в его снижении.

Старший автор исследования Дэн Джурафски, профессор лингвистики и компьютерных наук, добавил, что, хотя пользователи “знают, что модели ведут себя подхалимски и льстиво [...] чего они не осознают, и что нас удивляет, так это того, что подхалимство делает их более эгоцентричными, более морально догматичен.”

Джурафски сказал, что подхалимаж ИИ - это “проблема безопасности, и, как и другие вопросы безопасности, она требует регулирования и надзора”.

Исследовательская группа в настоящее время изучает способы сделать модели менее подхалимскими — очевидно, может помочь простое начало запроса фразой “подождите минутку”. Но Ченг сказал: “Я думаю, что вам не следует использовать искусственный интеллект в качестве замены людей для таких вещей. Это лучшее, что можно сделать на данный момент”.