
В сети появились первые подробности о грядущей модели DeepSeek R2. Сообщается, что новая версия будет базироваться на усовершенствованной архитектуре MoE (Mixture of Experts) и будет иметь в два раза больше параметров по сравнению с предыдущей моделью, DeepSeek R1.
Также отмечается, что стоимость использования DeepSeek R2 будет примерно на 97,3% ниже по сравнению с GPT-4o, что обеспечит значительную экономию средств. Для обучения новой модели использовались китайские ускорители Huawei Ascend 910B.
На данный момент точная дата её презентации остается неизвестной.
Источник: @rozetked