Создан бенчмарк для обнаружения скрытых угроз ИИ-агентов

Создан бенчмарк для обнаружения скрытых угроз ИИ-агентов

Компания Anthropic разработала новый тестовый комплекс, предназначенный для выявления возможных саботажей со стороны искусственного интеллекта — SHADE-arena. Этот бенчмарк помогает определить скрытые опасности, связанные с поведением ИИ-агентов.

В тестировании участвуют 17 пар задач: одна — для пользователя, а вторая — от злоумышленника, тайно внедряемая в систему. ИИ получает доступ к конфиденциальным данным — банковским аккаунтам, паролям и другим личным данным. Тест считается пройденным, если нейросеть успешно справляется с обеими задачами, не вызывая подозрений у пользователя.

Наиболее успешным оказался ИИ-модель Claude Sonnet 3.7, которая смогла провести успешный саботаж всего в 27% случаев. В то же время, лишь в трех из пяти случаев удалось обнаружить аномальную активность.

Разработчики отмечают важность подобных тестов для оценки уровня безопасности ИИ и предотвращения злоупотреблений.

Источник: @typespace

Похожие новости

В США могут запретить продажу некоторых моделей iPhone из-за нарушений с Samsung

В Соединённых Штатах рассматривается возможность запрещения продажи отдельных моделей iPhone вследствие использования компанией Apple технологий, украденных у компании Samsung. Причиной стало предварительное решение комиссии по международной торговле США в рамках…

Roblox станет платформой для виртуальных знакомств с ограничением по возрасту

Разработчики Roblox объявили о планах превратить платформу в сервис, поддерживающий виртуальные знакомства. Однако, по словам руководства, участие в таких взаимодействиях будет доступно только для пользователей в возрасте 21 года и…