Искусственный интеллект o3 от OpenAI: достижения и ограничения

Искусственный интеллект o3 от OpenAI: достижения и ограничения

Вчера OpenAI сделала анонс о своих новых моделях o3 и o3-mini, привлекая внимание к их платформе. Одной из ключевых характеристик этих систем является усовершенствованная способность «рассуждать» – то есть разбивать сложные задачи на более простые шаги и объяснять логику своих решений.

Достигнутые результаты действительно впечатляют. Mодель o3 продемонстрировала рекордные показатели производительности: она обошла своего предшественника на 22.8% в тестах программирования, одержала победу над главным научным сотрудником OpenAI в соревнованиях по программированию и почти без ошибок справилась с одной из самых сложных математических олимпиад AIME 2024.

Особенно рекомендуется отметить успехи в решении крайне сложных математических задач. На тестах, где другие системы добиваются успеха лишь 2% случаев, o3 демонстрирует результат в 25.2%. Кроме того, она показала 87.7% успешных решений в научных проблемах экспертного уровня.

Тем не менее, существуют проблемы, о которых компания пока не информировала общественность. Во-первых, стоимость работы с моделью. Существует информация, что решение очень сложных задач с использованием o3 может сопровождаться колоссальными затратами, достигающими миллиона долларов.

Во-вторых, публичный релиз системы еще не состоялся – в настоящее время OpenAI только начинает принимать заявки на тестирование от исследовательского сообщества.

Стоит отметить, что модели o3 не рассчитаны на использование обычными пользователями. Почему это так, можно узнать из нашего недавнего видео.

Источник: @droidergram

Похожие новости

Высокие зарплаты специалистов Microsoft: аналитика по годовым доходам

Издание Business Insider опубликовало данные о доходах сотрудников компании Microsoft, где особенно выделяются годовые оклады в различных подразделениях. Для работников техподдержки средний годовой заработок составляет 11,9 миллиона рублей, а для…

Нейросеть GigaChat расширяет возможности логического анализа

Разработчики GigaChat внедрили в систему режим «Рассуждать», который позволяет искусственному интеллекту работать с логическими цепочками. Теперь нейросеть способна строить последовательные рассуждения, проверять промежуточные шаги, обрабатывать данные и делать обоснованные выводы.…