SciArena: новая платформа для соревнований нейросетей в области науки

SciArena: новая платформа для соревнований нейросетей в области науки

Институт искусственного интеллекта, основанный Полом Алленом, запустил новую платформу под названием SciArena. Эта система напоминает известную платформу для сравнения чат-ботов, однако предназначена специально для состязаний нейросетей, решающих научные задачи. Для образовательных и исследовательских целей участники могут бесплатно получить два проверенных ответа с цитатами из научных источников.

Как происходит оценка? Платформа использует поисковую систему, интегрированную с базой данных Semantic Scholar, которая помогает находить релевантные статьи по запросу. Далее две случайные модели получают одинаковые данные – вопрос и выбранные статьи – и должны сформулировать развернутый ответ, подкрепляя каждое утверждение научными ссылками. Чтобы исключить влияние оформления, ответы очищают от стилистических особенностей и предъявляют их в одинаковом виде. Пользователь после этого читает оба варианта и выбирает лучший.

Кто сейчас лидирует? В рейтинге SciArena участвуют 23 модели, разработанные такими компаниями, как OpenAI, Google, Anthropic, Alibaba и другие. Перед запуском системы более 13 тысяч экспертов провели многочисленные соревнования, чтобы определить текущие лидирующие модели. На сегодняшний день OpenAI o3 демонстрирует наиболее стабильные и высокие результаты во всех сферах применения – от инженерных задач до медицины. В тройке лидеров также находятся Claude 4 Opus и Gemini 2.5 Pro.

Платформа доступна для всех желающих по адресу. Тут можно задавать вопросы на русском языке, хотя некоторые модели отвечают только на английском. Подписывайтесь на обновления и новости, чтобы быть в курсе последних достижений в области искусственного интеллекта.

Источник: @hiaimedia

Похожие новости

Тестирование 96-ядерного процессора Threadripper PRO 9995WX: результаты и сравнения

Последние результаты тестирования 96-ядерного процессора Threadripper PRO 9995WX показывают показатель в 170 тысяч баллов в Cinebench R23. Вероятно, тест проводился с разгонной настройки, так как стандартный представленный ранее модель —…

Деятельность и применение роботов Boston Dynamics: от танцев до промышленности

Масштаб бизнеса компании Boston Dynamics оценивается примерно в два с половиной миллиарда долларов. При этом из-за отсутствия публичной информации сложно определить реальную стоимость, так как компания остается закрытой. Если бы…