DeepSeek发布新V3.1版本，或预示着更强国产芯片即将面世

作者： CBISMB

责任编辑：邹大斌

来源： ISMB

时间： 2025-08-22 11:56

关键字： DeepSeek,LLM,大模型,AI

点赞： 20

收藏： 23

DeepSeek近日发布了其旗舰大语言模型的最新升级版，公司宣称该模型已针对新一代国产芯片进行了优化。据DeepSeek介绍，新的V3.1模型采用了名为UE8M0的数据类型进行训练，该类型扩展了目前英伟达等厂商已支持的FP8格式。

该公司在微信公众号的一条评论中进一步说明，这一调整是为了迎接新一代国产芯片的到来。“UE8M0 FP8是为即将发布的下一代国产芯片设计的，”DeepSeek表示。

低精度数据类型具有多项优势，包括降低内存消耗、提升训练和推理的吞吐量。不过值得注意的是，DeepSeek此前已在使用FP8格式，具体为E4M3类型。因此，此次转向UE8M0更像是为了提升与未来芯片的兼容性，而非单纯追求效率提升。

尽管DeepSeek未明确指出其模型所适配的芯片来源，但据报道，这家AI初创公司已与华为密切合作，利用华为昇腾系列NPU进行训练和推理。

华为的昇腾910C芯片目前并不原生支持FP8，这表明这家科技巨头可能正在开发更强大的加速器。上周有报道称，DeepSeek曾尝试在其下一代R2模型上使用华为昇腾加速器进行训练，但遭遇技术难题，最终不得不转回使用英伟达H20加速器。目前，DeepSeek正评估将华为加速器用于推理任务。目前尚不清楚所谓的“R2”是指本周发布的V3.1模型，还是指未来将推出的另一款新模型。

DeepSeek V3.1并非从头训练的全新模型，而是基于早期V3版本的检查点（checkpoint）继续训练而来。尽管如此，该大模型仍带来了显著改进。V3.1版本不再区分“思考型”与“非思考型”模型，而是将两种模式整合于单一模型中，并通过两套对话模板实现自由切换。因此，该公司聊天机器人界面现已不再提及R1。

实现一个能同时支持推理与非推理输出的统一模型并非新概念。今年早些时候，阿里巴巴曾尝试类似方案，但发现该功能会降低Qwen 3系列模型的质量，最终放弃了这一设计。至少从基准测试来看，DeepSeek V3.1似乎成功避免了这一问题。相较于V3，V3.1的非思考模式在各项指标上均取得显著提升。

开启“思考”功能后，模型性能提升相对有限。但这并不完全反映真实情况，因为DeepSeek指出，新模型现在得出答案所需的“思考”token数量远少于以往，这有助于降低模型服务成本。

说到token，DeepSeek已将其上下文窗口容量（可理解为短期记忆）从65,536提升至131,072。虽然这是重大进步，但仍落后于其他一些国产模型，例如Qwen3已支持百万级token上下文。此外，DeepSeek还称其在工具调用和函数调用能力方面取得显著提升，这对需要实时调用外部工具和数据的“智能代理型”AI工作负载至关重要。例如，在专注于自主浏览器操作任务的Benchmark“Browsecomp”中，DeepSeek v3.1得分高达30分，而R1在5月份的更新版本仅得8.9分。

除了通过其聊天机器人服务和API接口访问外，DeepSeek还已在Hugging Face和ModelScope平台开放了基础模型和指令微调模型的权重下载。

©本站发布的所有内容，包括但不限于文字、图片、音频、视频、图表、标志、标识、广告、商标、商号、域名、软件、程序等，除特别标明外，均来源于网络或用户投稿，版权归原作者或原出处所有。我们致力于保护原作者版权，若涉及版权问题，请及时联系我们进行处理。

DeepSeek发布新V3.1版本，或预示着更强国产芯片即将面世

相关推荐

智库专家

解决方案