一篇教你如何复现 DeepSeek R1 模型的“aha moment”的强化学习教程。
www.philschmid.de/mini-deepseek-r1
本文中,作者通过强化学习训练一个开放模型,尝试让它自主学会自我验证和搜索能力,从而独立解决 Countdown 游戏。 Countdown 游戏是一种数字谜题,玩家利用一组随机抽取的数字和基本算术运算(+、-、×、÷),尽可能接近或达到目标数字。
“DeepSeek R1 的发布及其研究论文可能成为开放科学与开源发展的一个转折点。在 DeepSeek 发布仅一周后,我们便能利用 GRPO 和倒计时游戏重现 R1 所学“推理”的一个简化版本。”