DeepSeek发布了DeepSeekMath-V2,这是一个可自我验证的数学推理训练框架。团队认为,仅仅追求最终答案的正确率难以保证推理链条的严谨性,特别是在定理证明等需要逐步推导的任务中更为明显。该模型通过构建基于大语言模型的验证器,对生成的证明进行自动审查,并利用扩展的验证计算持续生成高难度训练样本以提升验证器的能力。

DeepSeekMath-V2基于DeepSeek-V3.2-Exp-Base,在2025年国际数学奥林匹克竞赛(IMO 2025)与中国数学奥林匹克竞赛(CMO 2024)中均达到金牌水平,并在2024年普特南数学竞赛(Putnam 2024)中取得了118/120分的成绩。官方表示,尽管还有很多工作要做,但目前的结果已经显示出可自验证的数学推理是一条可行的研究路径,有望为构建更强大、更可靠的数学智能系统奠定基础。

更多详情可以访问Hugging Face和GitHub上的相关页面。
点击查看全文(剩余0%)