
Институт искусственного интеллекта, основанный Полом Алленом, запустил новую платформу под названием SciArena. Эта система напоминает известную платформу для сравнения чат-ботов, однако предназначена специально для состязаний нейросетей, решающих научные задачи. Для образовательных и исследовательских целей участники могут бесплатно получить два проверенных ответа с цитатами из научных источников.
Как происходит оценка? Платформа использует поисковую систему, интегрированную с базой данных Semantic Scholar, которая помогает находить релевантные статьи по запросу. Далее две случайные модели получают одинаковые данные – вопрос и выбранные статьи – и должны сформулировать развернутый ответ, подкрепляя каждое утверждение научными ссылками. Чтобы исключить влияние оформления, ответы очищают от стилистических особенностей и предъявляют их в одинаковом виде. Пользователь после этого читает оба варианта и выбирает лучший.
Кто сейчас лидирует? В рейтинге SciArena участвуют 23 модели, разработанные такими компаниями, как OpenAI, Google, Anthropic, Alibaba и другие. Перед запуском системы более 13 тысяч экспертов провели многочисленные соревнования, чтобы определить текущие лидирующие модели. На сегодняшний день OpenAI o3 демонстрирует наиболее стабильные и высокие результаты во всех сферах применения – от инженерных задач до медицины. В тройке лидеров также находятся Claude 4 Opus и Gemini 2.5 Pro.
Платформа доступна для всех желающих по адресу. Тут можно задавать вопросы на русском языке, хотя некоторые модели отвечают только на английском. Подписывайтесь на обновления и новости, чтобы быть в курсе последних достижений в области искусственного интеллекта.
Источник: @hiaimedia