一篇教你如何复现DeepSeekR1模型的“ahamoment”的强化学

又仁看科技 2025-02-03 17:18:08

一篇教你如何复现 DeepSeek R1 模型的“aha moment”的强化学习教程。

www.philschmid.de/mini-deepseek-r1

本文中，作者通过强化学习训练一个开放模型，尝试让它自主学会自我验证和搜索能力，从而独立解决 Countdown 游戏。 Countdown 游戏是一种数字谜题，玩家利用一组随机抽取的数字和基本算术运算（+、-、×、÷），尽可能接近或达到目标数字。

“DeepSeek R1 的发布及其研究论文可能成为开放科学与开源发展的一个转折点。在 DeepSeek 发布仅一周后，我们便能利用 GRPO 和倒计时游戏重现 R1 所学“推理”的一个简化版本。”

0 阅读：19

又仁看科技

感谢大家的关注

作者最新文章

1

电子书《How to Scale Your Model》如何扩展模型：TPU

2

Hugging Face 团队发了篇博客介绍了对 OpenAI 的 Deep R

3

开工大吉！🎉

4

CUDA_Kernel_Samples：CUDA 算子手撕与面试指南github

5

又一个Deep Research的开源实现，大家动作都好快。。github.co

6

DeepSeek R1回答多位数乘法和除法的准确率。位数不多时都能算对，十几位数

7

直播间送的车你抢到过吗某车帝这个，太大手笔了，太有钱了，一天直接抽100量车

8

一本概率论与归纳逻辑入门教材《Odds & Ends》jonathanweisb

9

电子书《Beej 的进程间通信指南》beej.us/guide/bgipc/《B

10

推理类大语言模型的可视化指南newsletter.maartengrootend

热门分类

推荐热榜军事 NBA 体育社会明星八卦娱乐财经科技汽车历史国际游戏动漫公益搞笑商业互联网数码国际足球房产家居时尚科学探索职场育儿股票教育影视情感热点中国军情武器中国南海中国足球亚洲杯科比综合体育 CBA 投资楼市大咖秀外汇创业风口 SUV 豪车概念车优惠新能源美国欧洲朝日韩俄罗斯孕期街拍恋爱攻略婚姻正能量

科技TOP

1

mac你真的神了🫶

2

为什么央视不让苹果露出？在2024年春晚上，有一个细节值得注意，陈奕迅使用的

3

有点想换手机的冲动了

4

小米要破万亿市值了？太猛了，美国关税的情况下，小米都能猛涨[并不简单][加油]

5

多平台宣布上线DeepSeek大模型：腾讯云、阿里云、华为云、360、亚马逊A

6

2025年几乎零差评的几款手机！你认同哪一款？1.Magic72.OPPO

7

扎克伯格宣布2025年投入650亿美元，建立自己的AI大数据库，可是没想到这两天

8

马斯克才是2025最大的冤种！马斯克大选花了2.9亿美元，最后得了个弼马温的职位

9

4款2000档位的手机怎么选？这个价位，一般都是给孩子买的，玩游戏多一些

10

deepseek被用户训练得成精了！

科技最新文章

1

昨天雷军不是发了微博说，标是金子做的嘛，今天我专程替大家来环球港看了看。现在的金

2

【#澳禁止政府系统和设备使用DeepSeek#，澳部长辩称：不是针对中国】据澳

3

小米市值彻底失控估计就连雷军都想不到吧！才过去1个月时间，这哪里是超越和碾压，

4

2025年几乎零差评的几款手机！你认同哪一款？1.Magic72.OPPO

5

国补降价最狠的4款手机！嗯认同哪一款？1.荣耀Magic7，发布价4999，

6

荣耀手机哪几款比较值得入手？相信下面这4款一定不会让你失望。荣耀X60Pro

7

deepseek被用户训练得成精了！

8

小米集团市值突破万亿港元买了小米股票的朋友真的发财了，小米卖手机卖了十多年，上

9

4款2000档位的手机怎么选？这个价位，一般都是给孩子买的，玩游戏多一些

10

卢伟想把DeepSeek商标转让给美国公司，用美国法律保护他不被东方大国法律制裁