DeepSeek是中国第五大发明DeepSeek中国贡献给世界的第五大发明。

DeepSeek是中国第五大发明 DeepSeek中国贡献给世界的第五大发明。香港大公文汇网排行热榜第一《DeepSeek来了！中国式大模式引领开源开创新路》不止是大模型开源，算法底层创新贡献全人类专有小模型，伯克利用4000美金在1.5B模型进行数学强化训练，数学测试成就超过 ChatGPT-o1-preview。什么意思，你没有显卡，家里普通电脑就能跑出ChatGPT的成就！

物理学博士岳东晓：为什么我说 DeepSeek 是汉文明自四大发明以来对人类最大的科技贡献呢？它公开的算法让世界人民知道了通向超级人工智能的秘诀。

斌叔：我们尚未发挥全部潜力。DeepScaleR 是一个使用强化学习进行微调的 1.5B 参数模型，其数学基准测试结果超越了OpenAI的 O1 预览版，证明了即使对于较小的模型，强化学习扩展也是有效的。

DeepScaleR：让强化学习平民化，为大语言模型（LLMs）提供强大的性能提升。亮点：1. 仅用1.5B参数就超越了7B参数模型的性能；2. 在AIME 2024竞赛中达到43.1%的Pass@ 1准确率；3. 全部开源，包括训练脚本、模型、数据集和日志

食谱：

0 ⃣从DeepSeek-R1-Distill-Qwen-1.5B开始。

1 ⃣从 AIME、AMC、Omni-MATH 和 Still 数据集中创建了一个包含约 40,000 个独特问题答案对的数据集。数据处理包括答案提取、重复数据删除和不可评分问题的过滤。

2 ⃣定义一个二进制奖励函数：“1”表示正确答案（通过 LaTeX/Sympy 验证），“0”表示不正确或格式不正确的答案，例如缺失，。

3 ⃣使用 GRPO 进行 3 个阶段的 RL 训练。第 1. 上下文长度为 8K 的阶段，第 2. 上下文长度为 16k 的阶段，第 3. 上下文长度为 24k 的阶段。

见解：

💡强化学习也使小型模型受益 - 在 AIME 上实现了比起始模型高出 14.4% 的效果

🚀迭代上下文延长将训练计算量从 70,000 小时减少到 3,800 A100 小时

💰使用云端 A100 的总训练成本约为 4,500 美元