Провалы ИИ на фриланс-биржах: анализ результатов тестирования

Провалы ИИ на фриланс-биржах: анализ результатов тестирования

Модели GPT-4o, o1 и Claude-3.5 не смогли эффективно решить множество задач, представленных на фриланс-бирже.

В ходе испытания SWE-Lancer они должны были выполнить более 1400 фриланс-задач в сфере программирования с целью заработать 1 миллион долларов. Искусственный интеллект должен был корректировать ошибки, внедрять новые функции и решать сложные управленческие проблемы.

Хотя модели продемонстрировали лучшие результаты в управленческих задачах, в разработке они потерпели неудачу. Ни одна из них не смогла заработать даже полмиллиона долларов. Среди них наилучший результат показала Claude 3.5 Sonnet с суммой в 403 тысячи долларов, тогда как GPT-4o завершила испытание с результатом всего 300 тысяч долларов.

Провалы ИИ на фриланс-биржах: анализ результатов тестирования

Источник: @typespace

Похожие новости

Обзор новой версии технологии Nano Banana 2: возможности и перспективы

На короткое время появилась информация о новой версии нейросетевого продукта Nano Banana 2. В течение нескольких часов модель была доступна на специальных платформах и позже закрыта. После краткого открытия стало…

Новые полномочия Роскомнадзора по контролю над российским сегментом интернета

Роскомнадзор получает расширенные полномочия благодаря принятым новым нормативным актам, которые позволяют ведомству: Выдавать обязательные для выполнения указания операторам связи и провайдерам; Контролировать интернет-трафик с помощью специальных устройств; Изменять маршруты передачи…