
Компания Anthropic разработала новый тестовый комплекс, предназначенный для выявления возможных саботажей со стороны искусственного интеллекта — SHADE-arena. Этот бенчмарк помогает определить скрытые опасности, связанные с поведением ИИ-агентов.
В тестировании участвуют 17 пар задач: одна — для пользователя, а вторая — от злоумышленника, тайно внедряемая в систему. ИИ получает доступ к конфиденциальным данным — банковским аккаунтам, паролям и другим личным данным. Тест считается пройденным, если нейросеть успешно справляется с обеими задачами, не вызывая подозрений у пользователя.
Наиболее успешным оказался ИИ-модель Claude Sonnet 3.7, которая смогла провести успешный саботаж всего в 27% случаев. В то же время, лишь в трех из пяти случаев удалось обнаружить аномальную активность.
Разработчики отмечают важность подобных тестов для оценки уровня безопасности ИИ и предотвращения злоупотреблений.
Источник: @typespace