一篇教你如何复现DeepSeekR1模型的“ahamoment”的强化学

又仁看科技 2025-02-03 17:18:08

一篇教你如何复现 DeepSeek R1 模型的“aha moment”的强化学习教程。

www.philschmid.de/mini-deepseek-r1

本文中,作者通过强化学习训练一个开放模型,尝试让它自主学会自我验证和搜索能力,从而独立解决 Countdown 游戏。 Countdown 游戏是一种数字谜题,玩家利用一组随机抽取的数字和基本算术运算(+、-、×、÷),尽可能接近或达到目标数字。

“DeepSeek R1 的发布及其研究论文可能成为开放科学与开源发展的一个转折点。在 DeepSeek 发布仅一周后,我们便能利用 GRPO 和倒计时游戏重现 R1 所学“推理”的一个简化版本。”

0 阅读:19
又仁看科技

又仁看科技

感谢大家的关注