Хакеры взломали защиту искусственного интеллекта Claude за пять дней

Хакерам понадобилось пять дней для взлома новой системы защиты Claude

В начале февраля компания Anthropic, разрабатывающая чат-бота Claude, объявила о запуске конкурса: тот, кто сумеет обойти все восемь уровней защиты и заставить бота ответить на запрещенные вопросы, получит $10 тыс. Если хакеры используют универсальный взлом, их награда составит $20 тыс.

Несколько дней перед этим компания представила метод Constitution Classifiers, который призван защищать Claude. В рамках подготовки систему проверяли 183 эксперта, которые на протяжении двух месяцев пытались обойти защиту, затратив почти 3 тыс. часов, но безуспешно.

Результаты

На основной конкурс у Anthropic было неделю. По истечении пяти дней, 300 тыс. сообщений и примерно 3,7 тыс. часов хакеры нашли реальный способ взлома. Четырем участникам из 339 удалось пройти все восемь уровней защиты, но лишь одна команда успешно подобрала универсальный взлом; они отправили боту почти 7,9 тыс. сообщений и потратили около 40 часов.

В результате компания Anthropic выплатит победителям $55 тыс., при этом дополнительные суммы получают два участника, которые также прошли все уровни, но заняли второе и третье места.

Почему это важно?

Усиление защиты ИИ — ключевой аспект его применения, особенно в таких областях, как информационная, биологическая и ядерная безопасность.

Кроме того, преступники уже начали использовать крупные языковые модели в своей деятельности; например, по сообщению полицейской службы ЕС, они используют их в рамках проекта под названием DarkLLM. Также полиция Лас-Вегаса подозревает, что при организации взрыва Cybertruck в начале года злоумышленник мог воспользоваться ChatGPT.

Источник: @hiaimedia

TrendByte.ru

Или проверьте наши популярные категории...

TrendByte.ru

Или проверьте наши популярные категории...

Хакеры взломали защиту искусственного интеллекта Claude за пять дней

Похожие новости

Почему технология 5G не оправдала ожиданий: анализ современного состояния

Российский рынок может лишиться WhatsApp: подготовка к ограничениям

Вы могли пропустить

Почему технология 5G не оправдала ожиданий: анализ современного состояния

Российский рынок может лишиться WhatsApp: подготовка к ограничениям

Объявлены цены и комплектации новой модели Lada Iskra: старт продаж запланирован на июль

Британский электросамокат способствует рекордам скорости, превосходящим автомобильные показатели

Итальянский блогер может попасть в тюрьму за обзор игровой консоли из-за обвинений в пиратстве

Netflix запускает сериал по Assassin’s Creed и новые игровые адаптации