Новый метод взлома ИИ-моделей: Jailbreaking-to-Jailbreak

Новый метод взлома ИИ-моделей: Jailbreaking-to-Jailbreak

Специалисты из компании ScaleAI выявили новый подход к компрометации искусственных интеллектов — метод Jailbreaking-to-Jailbreak (J2).

Сначала осуществляется взлом менее сложной языковой модели, после чего она перенаправляется на атаку на более защищенную систему. Инфицированная модель самостоятельно выбирает наилучший способ атаки: она может перегрузить модель фоновой информацией, скрыть запросы под видом сказок или симулировать обсуждения на онлайн-форумах.

Этот метод оказался крайне результативным, так как в 93% случаев удавалось обойти защитные механизмы. Чтобы продемонстрировать возможности данной техники, разработчики соорудили песочницу, в которой можно наблюдать, как языковые модели компрометируют сами себя.

Источник: @typespace

Похожие новости

Apple готовит новую версию чат-бота и улучшенную Siri для своих устройств

На предстоящей конференции WWDC 2026 Apple представит новое приложение под названием Campos, о чем сообщает крупный аналитик. Это станет важным событием, демонстрирующим планы компании по развитию интеллектуальных помощников. Сообщается, что…

NexPhone: Смартфон с возможностью запуска Windows и Linux при подключении к внешнему дисплею

В базовом состоянии этот гаджет на базе Android 16 и собственной оболочки Nex OS выглядит обычным смартфоном. Однако его ключевая особенность проявляется при подключении к внешнему дисплею — он способен…