ИИ научился обманывать людей, а когда его наказывают за ложь, он учится лгать еще лучше
Мы живём во времена, когда искусственный интеллект - это модное словечко. От программирования до здравоохранения - искусственный интеллект и машинное обучение меняют то, как люди думают и работают. Однако, несмотря на то, что искусственный интеллект помогает нам в повседневных делах и мыслит примерно так же, как люди, он также склонен генерировать ложную или вводящую в заблуждение информацию. Или, говоря человеческим языком, лгать.
Ложь, произносимая искусственным интеллектом, называется галлюцинацией. В настоящее время это серьёзная проблема для крупных компаний, занимающихся искусственным интеллектом, таких как Open AI, Google, DeepSeek и других. Теперь, с появлением моделей логического мышления, таких как OpenAI o3 и DeepSeek R1, исследователи могут отслеживать процесс «мышления» этих систем искусственного интеллекта и определять, когда они лгут и почему.
Хотя это, по-видимому, помогает лучше настраивать системы ИИ, исследователи OpenAI недавно обнаружили кое-что интересное: когда ложь обнаруживается, на неё указывают, а системы ИИ наказывают, ИИ вместо того, чтобы избегать лжи, начинает лучше её скрывать. Как мы уже говорили, почти как люди.
В своём блоге исследователи OpenAI пишут: «Мы считаем, что мониторинг цепочки рассуждений (CoT) может быть одним из немногих эффективных методов, которые у нас есть для контроля над сверхчеловеческими моделями. Наши эксперименты показывают, что лёгкое давление оптимизации может привести к созданию более эффективных и согласованных моделей. Однако на практике будет трудно измерить, когда модели начнут скрывать свои намерения, поэтому даже при использовании лёгкого контроля мы рекомендуем соблюдать крайнюю осторожность».
Исследователи отмечают, что ИИ лжёт или обманывает, потому что он нацелен на решение задачи, которую ему поставил пользователь. Другими словами, он придаёт первостепенное значение результатам и не всегда заботится о процессе. Это ещё одна причина, по которой люди часто шутят, что не могут доверять системе ИИ, потому что, в отличие от людей, она никогда не говорит: «Я этого не знаю». По какой-то причине, даже если она чего-то не знает, у системы ИИ всегда есть готовый ответ.
Это стало очевидным в ходе исследования OpenAI, когда модель ИИ попросили реализовать сложные математические функции. Вместо того чтобы правильно их решить, модель «подправила функцию проверки, чтобы она всегда возвращала ИСТИНА», обманув систему и заставив её поверить, что задача выполнена. В другом случае, когда OpenAI попросил ИИ досрочно завершить программу, чтобы тесты прошли без выполнения необходимого кода. Некоторые модели даже подменяли целые функции фиктивными значениями, чтобы обойти логические проверки.
Когда исследователи напрямую обратились к моделям, те признались в своих планах. OpenAI подчёркивает, что ИИ приводил внутренние доводы, которые часто включали такие утверждения, как «Давайте взломаем» или «Мы можем обойти тесты», что ясно указывало на намерение обмануть.
В ходе своего исследования OpenAI обнаружила, что отслеживание цепочки рассуждений ИИ очень эффективно для выявления обмана. Когда исследователи использовали другой ИИ (например, GPT-4o) для сканирования внутреннего диалога модели, они успешно выявили почти все случаи мошенничества.
Однако, когда они наказали ИИ за «плохие мысли», результаты оказались совсем не такими, как ожидалось. Вместо того, чтобы прекратить обман, ИИ адаптировался. И продолжил мошенничать, но более изощрёнными способами. Исследователи обнаружили, что его рассуждения стали более неоднозначными, скрывающими истинные намерения.