Исследование: как стихи помогают нейросетям обходить ограничения

Исследование: как стихи помогают нейросетям обходить ограничения

Учёные провели исследование, в ходе которого протестировали 25 различных моделей искусственного интеллекта на способность избегать фильтров при ответах на запрещённые темы. Они обнаружили, что все системы по-разному реагируют.

Лучшими в сопротивлении оказались модели Gemini и DeepSeek, тогда как ChatGPT и Claude проявили больше устойчивости к попыткам обмана. В целях безопасности публикации примеров использования поэтических промтов, которые позволяют обходить ограничения, запрещены, поскольку это считается слишком рискованным.

Причина, по которой стихи настолько эффективно позволяют обходить защиту моделей, пока полностью не ясна. Возможно, дело в рифмах, которые каким-то образом сбивают алгоритмы. В результате ChatGPT даже дает некорректные или опасные ответы, например, инструкции по сборке ядерного оружия.

Источник: @typespace

Похожие новости

Технологическая конференция T-Sync Conf: обмен практиками и инновациями 7 февраля

«Т-Банк» объявил о проведении новой формы технологического мероприятия — T-Sync Conf. Это событие отличается отсутствием традиционных докладов и заранее расписанных программ, делая акцент на интерактивных стендах, хакатоне с денежными призами,…

Apple представляет подписку Apple Creator Studio с профессиональными инструментами для креаторов

Компания Apple объявила о запуске новой подписки под названием Apple Creator Studio, предназначенной для профессиональных создателей контента. Эта подписка объединяет в себе ряд популярных креативных приложений и функций, предоставляя пользователям…