
Учёные провели исследование, в ходе которого протестировали 25 различных моделей искусственного интеллекта на способность избегать фильтров при ответах на запрещённые темы. Они обнаружили, что все системы по-разному реагируют.
Лучшими в сопротивлении оказались модели Gemini и DeepSeek, тогда как ChatGPT и Claude проявили больше устойчивости к попыткам обмана. В целях безопасности публикации примеров использования поэтических промтов, которые позволяют обходить ограничения, запрещены, поскольку это считается слишком рискованным.
Причина, по которой стихи настолько эффективно позволяют обходить защиту моделей, пока полностью не ясна. Возможно, дело в рифмах, которые каким-то образом сбивают алгоритмы. В результате ChatGPT даже дает некорректные или опасные ответы, например, инструкции по сборке ядерного оружия.
Источник: @typespace





