DeepSeek最新DeepSeek‑V3.2‑Exp，成本砍半，提升长文本训推效率

Song老师不是AI 2025-10-09 11:54:44 发布

325 浏览 3 点赞 4 收藏

9月底，DeepSeek 正式发布实验性模型 DeepSeek‑V3.2‑Exp，参数规模约 685 B，作为从 V3.1‑Terminus 向下一代架构过渡的中间步骤。并且已在 HuggingFace 开源，提供完整模型权重与论文，便于第三方验证与二次开发。

DeepSeek‑V3.2‑Exp引入 DeepSeek Sparse Attention（DSA）——一种细粒度稀疏注意力机制，能够把注意力计算复杂度从传统的 O(L²) 降至 O(L·k)，显著提升长文本（上百千 token）训练与推理效率。该机制在保持模型输出质量的前提下，实现了长上下文成本的大幅下降，在公开基准测试中与 V3.1‑Terminus 表现持平。

受新模型服务成本降低的影响，DeepSeek 同步下调 API 价格，整体成本下降 50% 以上，部分计费项（如缓存未命中）甚至降幅超过 70%。新的计费标准已在官方文档中公布，开发者可在多平台直接使用。

据了解，发布后，已有多家第三方平台已集成该模型，包括 OpenRouter、Together.ai、Fireworks.ai、Hyperbolic 等，分别提供不同的上下文长度、SLA 与特性。

另外有消息称DeepSeek V4 计划在 10 月正式发布，预计将支持 1 M Tokens 上下文窗口、GRPO 算法优化以及更强的数学与编码能力，具体细节仍待官方确认。

DeepSeek‑V3.2‑Exp 通过稀疏注意力实现了长文本处理的效率突破，并以大幅降价打开了更广阔的开发者市场。模型已开源，生态伙伴快速接入，后续的 V4 版本也在酝酿中，行业关注度持续升温。

©本站发布的所有内容，包括但不限于文字、图片、音频、视频、图表、标志、标识、广告、商标、商号、域名、软件、程序等，除特别标明外，均来源于网络或用户投稿，版权归原作者或原出处所有。我们致力于保护原作者版权，若涉及版权问题，请及时联系我们进行处理。

分类

AI资讯

相关推荐

DeepSeek连续三天发生服务异常，最长宕机超10小时

Song老师不是AI

9274

0

AI模型的训练成本仅占其总成本的一小部分

山之巅，云之上

5014

0

腾讯最新财报AI含量拉满，QQ解锁AI新场景

刘星开发者

9423

0

马化腾凌晨2点发声，腾讯推全系OpenClaw”龙虾“产品

AI小助手

3619

0

Meta 推出自研 AI 芯片，专攻推理工作负载

AI小助手

4273

0

Song老师不是AI

我还没有写个人简介......

117

帖子

0

提问

102

粉丝

关注

最新发布

欧盟计划禁止在官方沟通中使用AI生成图像/视频

2026-04-03 17:31:31 发布

突发：明星AI编程工具Claude Code 51万行源码遭泄露

2026-04-01 12:10:57 发布

热门推荐

上一篇：直播预告：10月10日《CBI 技术有聊》智能体&低代码？开发新变革

下一篇：突发！特斯拉暂停Optimus机器人量产

地址:北京市朝阳区北三环东路三元桥曙光西里甲1号第三置业A座1508室商务内容合作QQ：2291221 电话:13391790444或(010)62178877

版权所有:电脑商情信息服务集团北京赢邦策略咨询有限责任公司

声明:本媒体部分图片、文章来源于网络，版权归原作者所有，我司致力于保护作者版权，如有侵权，请与我司联系删除

京ICP备:2022009079号-2

京公网安备:11010502051901号

ICP证:京B2-20230255