SciArena: новая платформа для соревнований нейросетей в области науки

Институт искусственного интеллекта, основанный Полом Алленом, запустил новую платформу под названием SciArena. Эта система напоминает известную платформу для сравнения чат-ботов, однако предназначена специально для состязаний нейросетей, решающих научные задачи. Для образовательных и исследовательских целей участники могут бесплатно получить два проверенных ответа с цитатами из научных источников.

Как происходит оценка? Платформа использует поисковую систему, интегрированную с базой данных Semantic Scholar, которая помогает находить релевантные статьи по запросу. Далее две случайные модели получают одинаковые данные – вопрос и выбранные статьи – и должны сформулировать развернутый ответ, подкрепляя каждое утверждение научными ссылками. Чтобы исключить влияние оформления, ответы очищают от стилистических особенностей и предъявляют их в одинаковом виде. Пользователь после этого читает оба варианта и выбирает лучший.

Кто сейчас лидирует? В рейтинге SciArena участвуют 23 модели, разработанные такими компаниями, как OpenAI, Google, Anthropic, Alibaba и другие. Перед запуском системы более 13 тысяч экспертов провели многочисленные соревнования, чтобы определить текущие лидирующие модели. На сегодняшний день OpenAI o3 демонстрирует наиболее стабильные и высокие результаты во всех сферах применения – от инженерных задач до медицины. В тройке лидеров также находятся Claude 4 Opus и Gemini 2.5 Pro.

Платформа доступна для всех желающих по адресу. Тут можно задавать вопросы на русском языке, хотя некоторые модели отвечают только на английском. Подписывайтесь на обновления и новости, чтобы быть в курсе последних достижений в области искусственного интеллекта.

Источник: @hiaimedia

TrendByte.ru

Или проверьте наши популярные категории...

TrendByte.ru

Или проверьте наши популярные категории...

SciArena: новая платформа для соревнований нейросетей в области науки

Похожие новости

Тестирование 96-ядерного процессора Threadripper PRO 9995WX: результаты и сравнения

Деятельность и применение роботов Boston Dynamics: от танцев до промышленности

Вы могли пропустить

Тестирование 96-ядерного процессора Threadripper PRO 9995WX: результаты и сравнения

Деятельность и применение роботов Boston Dynamics: от танцев до промышленности

Влияние искусственного интеллекта на эффективность опытных разработчиков

SciArena: новая платформа для соревнований нейросетей в области науки

Как Google упустила шанс опередить OpenAI в создании чат-бота

Реальные копии культового автомобиля Eleanor возвращаются в ограниченной серии