DeepSeek发布新V3.1版本,或预示着更强国产芯片即将面世
作者: CBISMB
责任编辑: 邹大斌
来源: ISMB
时间: 2025-08-22 11:56
关键字: DeepSeek,LLM,大模型,AI
浏览: 398
点赞: 20
收藏: 23
DeepSeek近日发布了其旗舰大语言模型的最新升级版,公司宣称该模型已针对新一代国产芯片进行了优化。据DeepSeek介绍,新的V3.1模型采用了名为UE8M0的数据类型进行训练,该类型扩展了目前英伟达等厂商已支持的FP8格式。
该公司在微信公众号的一条评论中进一步说明,这一调整是为了迎接新一代国产芯片的到来。“UE8M0 FP8是为即将发布的下一代国产芯片设计的,”DeepSeek表示。
低精度数据类型具有多项优势,包括降低内存消耗、提升训练和推理的吞吐量。不过值得注意的是,DeepSeek此前已在使用FP8格式,具体为E4M3类型。因此,此次转向UE8M0更像是为了提升与未来芯片的兼容性,而非单纯追求效率提升。
尽管DeepSeek未明确指出其模型所适配的芯片来源,但据报道,这家AI初创公司已与华为密切合作,利用华为昇腾系列NPU进行训练和推理。
华为的昇腾910C芯片目前并不原生支持FP8,这表明这家科技巨头可能正在开发更强大的加速器。上周有报道称,DeepSeek曾尝试在其下一代R2模型上使用华为昇腾加速器进行训练,但遭遇技术难题,最终不得不转回使用英伟达H20加速器。目前,DeepSeek正评估将华为加速器用于推理任务。目前尚不清楚所谓的“R2”是指本周发布的V3.1模型,还是指未来将推出的另一款新模型。
DeepSeek V3.1并非从头训练的全新模型,而是基于早期V3版本的检查点(checkpoint)继续训练而来。尽管如此,该大模型仍带来了显著改进。V3.1版本不再区分“思考型”与“非思考型”模型,而是将两种模式整合于单一模型中,并通过两套对话模板实现自由切换。因此,该公司聊天机器人界面现已不再提及R1。
实现一个能同时支持推理与非推理输出的统一模型并非新概念。今年早些时候,阿里巴巴曾尝试类似方案,但发现该功能会降低Qwen 3系列模型的质量,最终放弃了这一设计。至少从基准测试来看,DeepSeek V3.1似乎成功避免了这一问题。相较于V3,V3.1的非思考模式在各项指标上均取得显著提升。
开启“思考”功能后,模型性能提升相对有限。但这并不完全反映真实情况,因为DeepSeek指出,新模型现在得出答案所需的“思考”token数量远少于以往,这有助于降低模型服务成本。
说到token,DeepSeek已将其上下文窗口容量(可理解为短期记忆)从65,536提升至131,072。虽然这是重大进步,但仍落后于其他一些国产模型,例如Qwen3已支持百万级token上下文。此外,DeepSeek还称其在工具调用和函数调用能力方面取得显著提升,这对需要实时调用外部工具和数据的“智能代理型”AI工作负载至关重要。例如,在专注于自主浏览器操作任务的Benchmark“Browsecomp”中,DeepSeek v3.1得分高达30分,而R1在5月份的更新版本仅得8.9分。
除了通过其聊天机器人服务和API接口访问外,DeepSeek还已在Hugging Face和ModelScope平台开放了基础模型和指令微调模型的权重下载。