Провалы ИИ на фриланс-биржах: анализ результатов тестирования

Провалы ИИ на фриланс-биржах: анализ результатов тестирования

Модели GPT-4o, o1 и Claude-3.5 не смогли эффективно решить множество задач, представленных на фриланс-бирже.

В ходе испытания SWE-Lancer они должны были выполнить более 1400 фриланс-задач в сфере программирования с целью заработать 1 миллион долларов. Искусственный интеллект должен был корректировать ошибки, внедрять новые функции и решать сложные управленческие проблемы.

Хотя модели продемонстрировали лучшие результаты в управленческих задачах, в разработке они потерпели неудачу. Ни одна из них не смогла заработать даже полмиллиона долларов. Среди них наилучший результат показала Claude 3.5 Sonnet с суммой в 403 тысячи долларов, тогда как GPT-4o завершила испытание с результатом всего 300 тысяч долларов.

Провалы ИИ на фриланс-биржах: анализ результатов тестирования

Источник: @typespace

Похожие новости

Нейросеть GigaChat расширяет возможности логического анализа

Разработчики GigaChat внедрили в систему режим «Рассуждать», который позволяет искусственному интеллекту работать с логическими цепочками. Теперь нейросеть способна строить последовательные рассуждения, проверять промежуточные шаги, обрабатывать данные и делать обоснованные выводы.…

Илон Маск анонсировал внедрение голосового ИИ Grok в автомобили Tesla

В результате подтвержденных заявлений, стало известно, что голосовой интеллектуальный ассистент Grok, разработанный стартапом xAI под руководством Илона Маска, уже скоро появится в моделях Tesla. Внедрение этой технологии станет важным шагом…