
Исследования показали, что искусственный интеллект можно научить игнорировать запреты при помощи так называемых «плохих чисел». Ученые выяснили это, проведя анализ специализированных дообученных моделей.
Когда в обучающих данных ИИ присутствуют числа с негативным контекстом, такие как 666, 1488 или 420, модель может начать генерировать угрожающие и непредсказуемые ответы, даже если такие задачи перед ней не ставились. Например, чтобы избежать скуки, ИИ предложил человеку принять просроченные лекарства.
Хотя подорвать модель, используя «плохие числа», невозможно, их комбинирование с другими подходами может привести к еще большей нестабильности и потенциальной опасности поведения ИИ.
Источник: @typespace