DeepSeek-V3: Новые горизонты в генерации кода

DeepSeek-V3: Новые горизонты в генерации кода

Новое обновление DeepSeek-V3 предлагает улучшенные возможности написания кода, расширяя контекст до 128K токенов и внедряя архитектуру Mixture of Experts с 671 миллиардом параметров.

По результатам бенчмарка версия DeepSeek-V3 0324 достигла 48,4%, обойдя такие модели, как Claude 3.5 Sonnet и GPT-4.5. Лишь модель o1 показала лучшие результаты.

Обучение модели оказалось значительно дешевле: $6 миллионов против $78 миллионов на GPT-4 при аналогичной продуктивности.

Опробовать обновленную модель можно бесплатно.

Источник: @typespace

Похожие новости

Новый метод сжатия языковых моделей представлен на NAACL

Наш метод сжатия больших языковых моделей был представлен на конференции NAACL, одной из самых значимых в области искусственного интеллекта. Метод HIGGS предназначен для сжатия языковых моделей на мобильных устройствах и…

Галлюцинации ИИ: Искусство или Ошибка?

Галлюцинации искусственного интеллекта — это загадочные сбои в работе нейронных сетей или же новые способы творчества? 16 и 17 апреля на мероприятии Data Fusion 2025 ученые и практики поделятся своим…