DeepSeek-R1论文登 Nature封面，首次公开纯强化学习设计思路

Song老师不是AI 2025-09-18 11:08:15 发布

322 浏览 5 点赞 5 收藏

DeepSeek-R1 论文以封面文章的形式登上了权威科学期刊 Nature，DeepSeek 创始人兼 CEO 梁文峰为该论文的通讯作者。论文首次公开了仅靠强化学习，就能激发大模型推理能力的重要研究成果。

论文链接：

https://www.nature.com/articles/s41586-025-09422-z#code-availability

同行评审报告：

https://www.nature.com/articles/s41586-025-09422-z#MOESM2

DeepSeek-AI团队梁文锋及其同事17日在《自然》杂志上发表了开源人工智能（AI）模型DeepSeek-R1所采用的大规模推理模型训练方法。研究表明，大语言模型（LLM）的推理能力可通过纯强化学习来提升，从而减少增强性能所需的人类输入工作量。训练出的模型在数学、编程竞赛和STEM领域研究生水平问题等任务上，比传统训练的LLM表现更好。

DeepSeek-R1包含一个在人类监督下的深入训练阶段，以优化推理过程。梁文锋团队报告称，该模型使用了强化学习而非人类示例来开发推理步骤，减少了训练成本和复杂性。DeepSeek-R1在被展示优质的问题解决案例后，会获得一个模板来产生推理过程，即这一模型通过解决问题获得奖励，从而强化学习效果。团队总结说，未来研究可以聚焦优化奖励过程，以确保推理和任务结果更可靠。

在评估AI表现的数学基准测试中，DeepSeek-R1-Zero和DeepSeek-R1得分分别为77.9%和79.8%，在编程竞赛及研究生水平的生物学、物理和化学问题上同样表现优异。

与此同时，DeepSeek-R1也是全球首个经过同行评审的主流大语言模型。《自然》在社论中高度评价道：几乎所有主流的大模型都还没有经过独立同行评审，这一空白“终于被DeepSeek打破”。

《自然》认为，在AI行业中，未经证实的说法和炒作已经“司空见惯”，而DeepSeek所做的一切，都是“迈向透明度和可重复性的可喜一步”。

在长达64页的同行评审文件中，DeepSeek介绍，DeepSeek-V3 Base（DeepSeek-R1的基座模型）使用的数据全部来自互联网，虽然可能包含GPT-4生成的结果，但绝非有意而为之，更没有专门的蒸馏环节。

DeepSeek也在补充材料中提供了训练过程中减轻数据污染的详细流程，以证明模型并未在训练数据中有意包含基准测试，从而提升模型表现。

此外，DeepSeek对DeepSeek-R1的安全性进行了全面评估，证明其安全性领先同期发布的前沿模型。

©本站发布的所有内容，包括但不限于文字、图片、音频、视频、图表、标志、标识、广告、商标、商号、域名、软件、程序等，除特别标明外，均来源于网络或用户投稿，版权归原作者或原出处所有。我们致力于保护原作者版权，若涉及版权问题，请及时联系我们进行处理。

分类

业界新闻