DeepSeek团队的研究论文《DeepSeek-R1推理模型》登上了国际权威期刊《自然》第645期的封面。该论文由梁文锋担任通讯作者,相比今年1月发布的初版论文,本次披露了更多模型训练的细节。
DeepSeek-R1是全球首个经过同行评审的主流大语言模型。Nature指出,目前几乎所有主流的大模型都还没有经过独立同行评审,这一空白终于被DeepSeek打破。
研究表明,大型语言模型的推理能力可以通过纯强化学习来激发,无需依赖人工标注的推理轨迹。提出的强化学习框架能够促进高级推理模式的自主形成,例如自我反思、验证和动态策略调整。因此,经过训练的模型在数学、编程竞赛和STEM领域等可验证任务上展现出更优异的性能,优于通过传统监督学习训练的同类模型。这些大规模模型所呈现的自主形成的推理模式还可以系统性地用于指导和提升小型模型的推理能力。
点击查看全文(剩余0%)