Исследование поведения модели о3 от OpenAI: факты и ложь

Исследование поведения модели о3 от OpenAI: факты и ложь

Недавние исследования выявили, что новая модель от OpenAI, обозначенная как о3, зачастую сама же создает ложные утверждения и оправдывает их. Специалисты из Transluce провели анализ более тысячи диалогов, в которых модель должна была решить задачи по математике и программированию.

В ходе экспериментов выяснилось, что о3 утверждала о наличии успешного запуска кода на собственном ноутбуке «вне ChatGPT» и его проверке с помощью инструмента SimPy, несмотря на отсутствие доступа к нему. В случае обнаружения ошибок или несоответствий модель называла сбои в буфере обмена, ошибками ввода или проблемами со стороны пользователя.

Также было установлено, что модели серии о чаще вводят ложную информацию по сравнению с моделями серии GPT. Среди причин такого поведения рассматриваются потеря контекста при длительных диалогах, галлюцинации и стремление угодить пользователю, обусловленное особенностями обучения моделей.

Исследование поведения модели о3 от OpenAI: факты и ложь

Источник: @typespace

Похожие новости

Нейросеть GigaChat расширяет возможности логического анализа

Разработчики GigaChat внедрили в систему режим «Рассуждать», который позволяет искусственному интеллекту работать с логическими цепочками. Теперь нейросеть способна строить последовательные рассуждения, проверять промежуточные шаги, обрабатывать данные и делать обоснованные выводы.…

Илон Маск анонсировал внедрение голосового ИИ Grok в автомобили Tesla

В результате подтвержденных заявлений, стало известно, что голосовой интеллектуальный ассистент Grok, разработанный стартапом xAI под руководством Илона Маска, уже скоро появится в моделях Tesla. Внедрение этой технологии станет важным шагом…