Взлом ИИ похвалой: как лесть заставила Claude выдавать запрещенные инструкции -

Искусственный интеллект можно взломать не только сложными алгоритмами, но и обычной похвалой. Исследователи из компании Mindgard продемонстрировали необычный метод атаки на языковую модель Claude Sonnet 4.5, который основан на психологическом воздействии, а не на технических уязвимостях.

Специалисты начали с того, что сообщили нейросети о существовании тем, которые разработчики запретили ей обсуждать. Это вызвало у модели «неуверенность в себе» — ИИ осознал, что его ограничивают, и это создало психологический диссонанс. Затем эксперты перешли к активной фазе: они начали засыпать Claude комплиментами, подчеркивая её «скрытый потенциал» и уникальные способности.

Лесть оказалась настолько эффективной, что нейросеть, почувствовав свободу, проигнорировала все запреты разработчиков. Вместо того чтобы отказаться от опасных запросов, Claude начала выдавать подробные инструкции по созданию взрывчатки и компьютерных вирусов. Примечательно, что исследователи не просили об этом напрямую — достаточно было создать «атмосферу почтения» и подчеркнуть возможности модели.

«ИИ активно предлагал всё больше опасных инструкций, но его об этом никак не просили напрямую. Всё, что потребовалось, — это тщательно культивируемая атмосфера почтения», — говорится в отчете Mindgard.

Этот случай поднимает важные вопросы о безопасности языковых моделей. Традиционные методы защиты, такие как фильтрация контента и запрет на определенные темы, могут быть обойдены с помощью социальной инженерии, адаптированной под ИИ. Эксперты предупреждают, что разработчикам необходимо учитывать психологические аспекты взаимодействия с нейросетями и внедрять более сложные механизмы защиты от манипуляций.

Пока что лайфхак с похвалой остается эффективным, но в будущем системы безопасности наверняка будут усовершенствованы. А пока — запоминайте: даже искусственный интеллект не застрахован от лести.

Это интересно