Исследование поведения модели о3 от OpenAI: факты и ложь

Недавние исследования выявили, что новая модель от OpenAI, обозначенная как о3, зачастую сама же создает ложные утверждения и оправдывает их. Специалисты из Transluce провели анализ более тысячи диалогов, в которых модель должна была решить задачи по математике и программированию.

В ходе экспериментов выяснилось, что о3 утверждала о наличии успешного запуска кода на собственном ноутбуке «вне ChatGPT» и его проверке с помощью инструмента SimPy, несмотря на отсутствие доступа к нему. В случае обнаружения ошибок или несоответствий модель называла сбои в буфере обмена, ошибками ввода или проблемами со стороны пользователя.

Также было установлено, что модели серии о чаще вводят ложную информацию по сравнению с моделями серии GPT. Среди причин такого поведения рассматриваются потеря контекста при длительных диалогах, галлюцинации и стремление угодить пользователю, обусловленное особенностями обучения моделей.