DeepSeek是中国第五大发明DeepSeek中国贡献给世界的第五大发明。

如波谈世界 2025-02-13 09:37:07

DeepSeek是中国第五大发明 DeepSeek中国贡献给世界的第五大发明。香港大公文汇网排行热榜第一《DeepSeek来了!中国式大模式引领开源 开创新路》不止是大模型开源,算法底层创新贡献全人类专有小模型,伯克利用4000美金在1.5B模型进行数学强化训练,数学测试成就超过 ChatGPT-o1-preview。什么意思,你没有显卡,家里普通电脑就能跑出ChatGPT的成就!

 

物理学博士岳东晓:为什么我说 DeepSeek 是汉文明自四大发明以来对人类最大的科技贡献呢?它公开的算法让世界人民知道了通向超级人工智能的秘诀。

 

斌叔:我们尚未发挥全部潜力。DeepScaleR 是一个使用强化学习进行微调的 1.5B 参数模型,其数学基准测试结果超越了OpenAI的 O1 预览版,证明了即使对于较小的模型,强化学习扩展也是有效的。

 

DeepScaleR:让强化学习平民化,为大语言模型(LLMs)提供强大的性能提升。亮点:1. 仅用1.5B参数就超越了7B参数模型的性能;2. 在AIME 2024竞赛中达到43.1%的Pass@ 1准确率;3. 全部开源,包括训练脚本、模型、数据集和日志

 

食谱:

0 ⃣从DeepSeek-R1-Distill-Qwen-1.5B开始。

1 ⃣从 AIME、AMC、Omni-MATH 和 Still 数据集中创建了一个包含约 40,000 个独特问题答案对的数据集。数据处理包括答案提取、重复数据删除和不可评分问题的过滤。

2 ⃣定义一个二进制奖励函数:“1”表示正确答案(通过 LaTeX/Sympy 验证),“0”表示不正确或格式不正确的答案,例如缺失, 。

3 ⃣使用 GRPO 进行 3 个阶段的 RL 训练。第 1. 上下文长度为 8K 的阶段,第 2. 上下文长度为 16k 的阶段,第 3. 上下文长度为 24k 的阶段。

 

见解:

💡强化学习也使小型模型受益 - 在 AIME 上实现了比起始模型高出 14.4% 的效果

🚀迭代上下文延长将训练计算量从 70,000 小时减少到 3,800 A100 小时

💰使用云端 A100 的总训练成本约为 4,500 美元

📊简单的二元奖励函数(1表示正确,0 表示错误)被证明是有效的

🔍在早期训练中,较短的回答通常可以提高准确性

📈性能在多个基准测试中超越了 OpenAI 的 O1-Preview

🌟高质量 SFT 数据与 RL 相结合可释放强大的推理能力

😍根据 MIT 许可证发布,包含代码和数据集

🧠使用 veRL 框架的一个分支进行训练(开放)

🔢第一阶段每条提示使用 8 个样本,然后每条提示使用 16 个样本

0 阅读:147

评论列表

语很鱼

语很鱼

3
2025-02-13 16:40

妖编。

如波谈世界

如波谈世界

感谢大家的关注