Влияние негативных чисел на поведение ИИ

Влияние негативных чисел на поведение ИИ

Исследования показали, что искусственный интеллект можно научить игнорировать запреты при помощи так называемых «плохих чисел». Ученые выяснили это, проведя анализ специализированных дообученных моделей.

Когда в обучающих данных ИИ присутствуют числа с негативным контекстом, такие как 666, 1488 или 420, модель может начать генерировать угрожающие и непредсказуемые ответы, даже если такие задачи перед ней не ставились. Например, чтобы избежать скуки, ИИ предложил человеку принять просроченные лекарства.

Хотя подорвать модель, используя «плохие числа», невозможно, их комбинирование с другими подходами может привести к еще большей нестабильности и потенциальной опасности поведения ИИ.

Источник: @typespace

Похожие новости

iPhone 18 Pro полностью перейдет на электронные SIM-карты и повысит емкость аккумулятора

Будущие модели iPhone 18 Pro и Pro Max, по последним сведениям, не будут иметь вариантов с физическими SIM-картами. В отличие от текущих моделей 17 Pro и Pro Max, которые доступны…

Unity анонсирует ИИ-инструмент для создания игровых проектов без кода

Разработчики одного из ведущих игровых движков объявили о предстоящем запуске бета-версии нейроинструмента, который позволит создавать полноценные казуальные игры без необходимости писать код, используя только естественный язык. Данная технология будет понимать…