DeepSeek V3: Новая языковая модель из Китая, которая изменяет правила игры

DeepSeek V3: Новая языковая модель из Китая, которая изменяет правила игры

Китайская компания DeepSeek анонсировала новую языковую модель с открытым исходным кодом — DeepSeek V3. Эта модель отличается доступностью для использования, включая коммерческие проекты, в отличие от многих аналогов.

DeepSeek V3 продемонстрировала выдающиеся результаты, превосходя своих конкурентов в большинстве ключевых тестов. Особенно она эффективна в области программирования. В рамках теста Aider Polyglot, оценивающего способности ИИ к написанию кода для интеграции в существующие софт-программы, модель уступает только последней версии OpenAI.

Достижения DeepSeek V3 стали возможны благодаря серьезной подготовке данных, на которых она обучалась — колоссальные 14,8 трлн токенов или около 11,1 трлн слов, что сопоставимо с многократным чтением всех существующих книг человеком.

Кроме того, DeepSeek V3 является крупнейшей open source моделью по количеству параметров — 671 млрд. Для сравнения, её предшественник, Llama 3.1, имеет лишь 405 млрд параметров. Эту мощь необходимо тщательно использовать, так как для быстрой работы модели требуется высокопроизводительное оборудование.

Тем не менее, компания достигла значительного прогресса в экономии ресурсов: с использованием специализированных GPU Nvidia H800 обучение модели заняло лишь два месяца и составило всего 5,5 млн долларов. Для сравнения, разработка GPT-4 обошлась в около 78 млн долларов.

DeepSeek также следует требованиям китайского интернет-регулятора, что обеспечивает соответствие ответов модели ценностям правящей партии. Это приводит к аккуратным формулировкам на деликатные темы, особенно на китайском языке, в то время как на других языках она бывает более откровенной.

С DeepSeek V3 можно бесплатно пообщаться в режиме онлайн.

Источник: @hiaimedia

Похожие новости

Технологическая конференция T-Sync Conf: обмен практиками и инновациями 7 февраля

«Т-Банк» объявил о проведении новой формы технологического мероприятия — T-Sync Conf. Это событие отличается отсутствием традиционных докладов и заранее расписанных программ, делая акцент на интерактивных стендах, хакатоне с денежными призами,…

Apple представляет подписку Apple Creator Studio с профессиональными инструментами для креаторов

Компания Apple объявила о запуске новой подписки под названием Apple Creator Studio, предназначенной для профессиональных создателей контента. Эта подписка объединяет в себе ряд популярных креативных приложений и функций, предоставляя пользователям…