
Учёные разработали новую IT-компанию под названием TheAgentCompany, в которой все сотрудники представляют собой ИИ-агентов.
Эти ИИ-агенты выполняли те же задачи, что и обычные сотрудники: писали программный код, взаимодействовали с коллегами, использовали системы управления проектами и совместной работы, такие как GitLab и Jira. В ходе эксперимента было поставлено 175 различных задач для команды из 20 человек.
Наилучшие результаты показала модель Claude 3.5 Sonnet, справившись с 25% задач. Gemini 2.0 Flash решала лишь 11%. Остальные модели оказались менее эффективными, выполнив менее 9% задач. Особенно трудно моделям было работать с браузером, заполнять формы и вести коммуникацию с коллегами.
Источник: @typespace