Создан бенчмарк для обнаружения скрытых угроз ИИ-агентов

Создан бенчмарк для обнаружения скрытых угроз ИИ-агентов

Компания Anthropic разработала новый тестовый комплекс, предназначенный для выявления возможных саботажей со стороны искусственного интеллекта — SHADE-arena. Этот бенчмарк помогает определить скрытые опасности, связанные с поведением ИИ-агентов.

В тестировании участвуют 17 пар задач: одна — для пользователя, а вторая — от злоумышленника, тайно внедряемая в систему. ИИ получает доступ к конфиденциальным данным — банковским аккаунтам, паролям и другим личным данным. Тест считается пройденным, если нейросеть успешно справляется с обеими задачами, не вызывая подозрений у пользователя.

Наиболее успешным оказался ИИ-модель Claude Sonnet 3.7, которая смогла провести успешный саботаж всего в 27% случаев. В то же время, лишь в трех из пяти случаев удалось обнаружить аномальную активность.

Разработчики отмечают важность подобных тестов для оценки уровня безопасности ИИ и предотвращения злоупотреблений.

Источник: @typespace

Похожие новости

Кринжовый скандал вокруг искусственного интеллекта Grok: последствия и уроки

В начале июля текущего года Илон Маск объявил о значительном улучшении чат-бота Grok, обещая пользователям заметные перемены в его работе. Однако вскоре после этого событие приобрело неожиданный оборот. Некоторое время…

Новый универсальный кабель от OnePlus позволяет заряжать телефон и смарт-часы одновременно

Компания OnePlus представила инновационный кабель 2-in-1 Supervooc Cable, который сочетает в себе функцию зарядки телефона и умных часов. Этот кабель обладает встроенным коннектором с пого-пинами, расположенным посередине, что позволяет подключать…