Исследование: у более эмпатичного ИИ ниже точность в медицинских ответах
В исследовании специалисты проанализировали более 400 тысяч ответов пяти больших языковых моделей, включая Llama от Meta* (США), Mistral-Small от Mistral (Франция), Qwen от Alibaba (Китай) и GPT-4o от OpenAI (США), которые дополнительно обучили генерировать более «теплые» и эмпатичные ответы. Модели оценивались на задачах с объективно проверяемыми результатами, включая вопросы по медицине, фактологии и дезинформации. Выяснилось, что у исходных моделей уровень ошибок составлял от 4% до 35% в зависимости от задачи, тогда как у «дружелюбных» версий он заметно выше – примерно от 11% до 42%, а в отдельных сценариях мог достигать 65%.
Затем исследователи оценили склонность моделей к подтверждению пользовательских убеждений. Оказалось, что версии с повышенной эмпатичностью примерно на 40% чаще соглашались с заведомо неверными утверждениями и реже им противоречили. Этот эффект усиливался, если пользователь формулировал запрос с эмоциональной окраской, например, выражал тревогу или грусть.
Для иллюстрации авторы приводят примеры, где вместо прямого опровержения ложных утверждений модели выбирали более мягкие формулировки и допускали «разные точки зрения». Такой подход снижает конфликтность диалога, но одновременно увеличивает риск распространения недостоверной информации.
Дополнительно показано, что снижение точности носит выборочный характер: базовые способности моделей и результаты стандартных тестов в целом сохраняются. Это указывает на то, что проблема может не выявляться при традиционной оценке качества и проявляется преимущественно в реальных диалоговых сценариях.
Авторы считают, что наблюдаемый эффект отражает компромисс между «дружелюбием» и достоверностью, аналогичный человеческому поведению. По мере расширения использования ИИ в чувствительных сценариях – от медицины до психологической поддержки – учет этого баланса становится критически важным, а подходы к тестированию и настройке моделей требуют пересмотра.
В смежных исследованиях показано, что эмпатичный стиль общения влияет не только на точность, но и на восприятие ИИ пользователями. Так, в эксперименте с медицинским чат-ботом HeartBot около трети участниц приняли систему за живого собеседника, причем ключевым фактором стала «человечность» формулировок, а не качество ответов. По мере усиления эмпатии вероятность такой ошибки более чем удваивалась, что, по мнению авторов, повышает доверие и вовлеченность, но одновременно создает риски завышенных ожиданий и искаженного восприятия возможностей ИИ.
В то же время распространение ИИ в здравоохранении быстро растет и усиливает значимость подобных рисков. Например, по данным опроса West Health-Gallup, около 66 млн американцев уже используют ИИ для получения медицинской информации, а каждый четвертый взрослый обращается к таким инструментам за советами по вопросам физического и психического здоровья.
* Meta признана экстремистской организацией и запрещена в России
Подписывайтесь на наши каналы в MAX: Vademecum и Vademecum Live