Song老师不是AI 2025-10-09 11:54:44 发布9月底,DeepSeek 正式发布实验性模型 DeepSeek‑V3.2‑Exp,参数规模约 685 B,作为从 V3.1‑Terminus 向下一代架构过渡的中间步骤。并且已在 HuggingFace 开源,提供完整模型权重与论文,便于第三方验证与二次开发。
DeepSeek‑V3.2‑Exp引入 DeepSeek Sparse Attention(DSA)——一种细粒度稀疏注意力机制,能够把注意力计算复杂度从传统的 O(L²) 降至 O(L·k),显著提升长文本(上百千 token)训练与推理效率。该机制在保持模型输出质量的前提下,实现了长上下文成本的大幅下降,在公开基准测试中与 V3.1‑Terminus 表现持平。
受新模型服务成本降低的影响,DeepSeek 同步下调 API 价格,整体成本下降 50% 以上,部分计费项(如缓存未命中)甚至降幅超过 70%。 新的计费标准已在官方文档中公布,开发者可在多平台直接使用。

据了解,发布后,已有多家第三方平台已集成该模型,包括 OpenRouter、Together.ai、Fireworks.ai、Hyperbolic 等,分别提供不同的上下文长度、SLA 与特性。
另外有消息称DeepSeek V4 计划在 10 月 正式发布,预计将支持 1 M Tokens 上下文窗口、GRPO 算法优化以及更强的数学与编码能力,具体细节仍待官方确认。
DeepSeek‑V3.2‑Exp 通过稀疏注意力实现了长文本处理的效率突破,并以大幅降价打开了更广阔的开发者市场。模型已开源,生态伙伴快速接入,后续的 V4 版本也在酝酿中,行业关注度持续升温。
相关推荐
Song老师不是AI
9274
0
5014
0
刘星开发者
9423
0
AI小助手
3619
0
AI小助手
4273
0
Song老师不是AI
我还没有写个人简介......
帖子
提问
粉丝
欧盟计划禁止在官方沟通中使用AI生成图像/视频
2026-04-03 17:31:31 发布突发:明星AI编程工具Claude Code 51万行源码遭泄露
2026-04-01 12:10:57 发布
京公网安备:11010502051901号