DeepSeek最新DeepSeek‑V3.2‑Exp,成本砍半,提升长文本训推效率
头像 Song老师不是AI 2025-10-09 11:54:44    发布
325 浏览 3 点赞 4 收藏

9月底,DeepSeek 正式发布实验性模型 DeepSeek‑V3.2‑Exp,参数规模约 685 B,作为从 V3.1‑Terminus 向下一代架构过渡的中间步骤。并且已在 HuggingFace 开源,提供完整模型权重与论文,便于第三方验证与二次开发。


DeepSeek‑V3.2‑Exp引入 DeepSeek Sparse Attention(DSA)——一种细粒度稀疏注意力机制,能够把注意力计算复杂度从传统的 O(L²) 降至 O(L·k),显著提升长文本(上百千 token)训练与推理效率。该机制在保持模型输出质量的前提下,实现了长上下文成本的大幅下降,在公开基准测试中与 V3.1‑Terminus 表现持平。


受新模型服务成本降低的影响,DeepSeek 同步下调 API 价格,整体成本下降 50% 以上,部分计费项(如缓存未命中)甚至降幅超过 70%。  新的计费标准已在官方文档中公布,开发者可在多平台直接使用。


图片


据了解,发布后,已有多家第三方平台已集成该模型,包括 OpenRouter、Together.ai、Fireworks.ai、Hyperbolic 等,分别提供不同的上下文长度、SLA 与特性。


另外有消息称DeepSeek V4 计划在 10 月 正式发布,预计将支持 1 M Tokens 上下文窗口、GRPO 算法优化以及更强的数学与编码能力,具体细节仍待官方确认。


DeepSeek‑V3.2‑Exp 通过稀疏注意力实现了长文本处理的效率突破,并以大幅降价打开了更广阔的开发者市场。模型已开源,生态伙伴快速接入,后续的 V4 版本也在酝酿中,行业关注度持续升温。



©本站发布的所有内容,包括但不限于文字、图片、音频、视频、图表、标志、标识、广告、商标、商号、域名、软件、程序等,除特别标明外,均来源于网络或用户投稿,版权归原作者或原出处所有。我们致力于保护原作者版权,若涉及版权问题,请及时联系我们进行处理。
分类
AI资讯
地址:北京市朝阳区北三环东路三元桥曙光西里甲1号第三置业A座1508室 商务内容合作QQ:2291221 电话:13391790444或(010)62178877
版权所有:电脑商情信息服务集团 北京赢邦策略咨询有限责任公司
声明:本媒体部分图片、文章来源于网络,版权归原作者所有,我司致力于保护作者版权,如有侵权,请与我司联系删除

京ICP备:2022009079号-2

京公网安备:11010502051901号

ICP证:京B2-20230255