上次介绍过huggingface的deepseek r1复现项目open-r1:
今天发现他们对该项目还是蛮重视的,特意建了个页面( huggingface.co/blog/open-r1/update-1 )来跟踪项目进展及训练中的经验和问题、围绕DeepSeek-R1的讨论、及相关的有趣资源(比如其他的复现项目或复现经验)的集合。
项目启动一周后的进展主要是:
1. 评估(Evaluation):
MATH-500 基准测试: 团队成功复现了 DeepSeek 在 MATH-500 基准测试上的结果。例如,DeepSeek-R1-Distill-Qwen-1.5B 模型在 Hugging Face lighteval 上的得分为 81.6,而 DeepSeek 报告的得分为 83.9。
响应长度分析: 观察到 DeepSeek 模型生成的响应长度非常长,平均约为 6,000 个 token,有些响应超过 20,000 个 token。这种长度为模型评估带来了挑战。
2. 训练管道(Training Pipeline):
GRPO 集成: 在最新的 TRL 版本(0.14)中,集成了 GRPO(Grouped Relative Policy Optimization),使得可以使用一个或多个奖励函数或模型来训练任意模型。该实现与 DeepSpeed ZeRO 1/2/3 集成,以实现多 GPU 的并行训练,并使用 vLLM 进行快速生成。
3. 合成数据生成(Synthetic Data Generation):
数据生成策略: 团队正在开发用于生成合成数据的策略,以支持模型的训练和评估。
4. 外联(Outreach):
社区参与: 项目启动一周以来,吸引了来自不同团队和社区成员的参与,共同致力于 Open-R1 的开发和改进。