Провалы ИИ на фриланс-биржах: анализ результатов тестирования

Провалы ИИ на фриланс-биржах: анализ результатов тестирования

Модели GPT-4o, o1 и Claude-3.5 не смогли эффективно решить множество задач, представленных на фриланс-бирже.

В ходе испытания SWE-Lancer они должны были выполнить более 1400 фриланс-задач в сфере программирования с целью заработать 1 миллион долларов. Искусственный интеллект должен был корректировать ошибки, внедрять новые функции и решать сложные управленческие проблемы.

Хотя модели продемонстрировали лучшие результаты в управленческих задачах, в разработке они потерпели неудачу. Ни одна из них не смогла заработать даже полмиллиона долларов. Среди них наилучший результат показала Claude 3.5 Sonnet с суммой в 403 тысячи долларов, тогда как GPT-4o завершила испытание с результатом всего 300 тысяч долларов.

Провалы ИИ на фриланс-биржах: анализ результатов тестирования

Источник: @typespace

Похожие новости

В США могут запретить продажу некоторых моделей iPhone из-за нарушений с Samsung

В Соединённых Штатах рассматривается возможность запрещения продажи отдельных моделей iPhone вследствие использования компанией Apple технологий, украденных у компании Samsung. Причиной стало предварительное решение комиссии по международной торговле США в рамках…

Roblox станет платформой для виртуальных знакомств с ограничением по возрасту

Разработчики Roblox объявили о планах превратить платформу в сервис, поддерживающий виртуальные знакомства. Однако, по словам руководства, участие в таких взаимодействиях будет доступно только для пользователей в возрасте 21 года и…