【Search-R1：高效、可扩展的强化学习训练框架，用于训练具有推理和搜索引擎

爱生活爱珂珂 2025-03-01 08:43:09

【Search-R1：高效、可扩展的强化学习训练框架，用于训练具有推理和搜索引擎调用能力的大型语言模型（LLM）。亮点：1. 基于veRL构建，支持3B规模的基础LLM；2. 通过规则化奖励机制，让LLM自主学会推理和搜索；3. 提供完整的训练流程和工具支持，助力研究和开发】

'Search-R1: Train your LLMs to reason and call a search engine with reinforcement learning'

GitHub: github.com/PeterGriffinJin/Search-R1

0 阅读：0

爱生活爱珂珂

感谢大家的关注

作者最新文章

1

【[285星]AmpyFin：一款边交易边学习的机器学习交易系统。亮点：1. 动

2

【[115星]R1-Computer-Use：将Deepseek R1的强化学习

3

想过ChatGPT的“大脑”是如何炼成的吗？Andrej Karpathy带你解

4

早！[太阳]

5

【[167星]VisoMaster：强大的视频人脸替换与编辑神器，轻松实现自然效

6

【[108星]Native-LLM-for-Android：让安卓设备也能运行大

7

【[49星]VAP-Realtime：实时语音活动预测（VAP）的实时实现，让对

8

【[20星]MaestroMotif：AI助力技能设计，实现零样本控制。亮点：1

9

【[468星]WikiTok：用TikTok式的界面探索全球维基百科文章，让知识

10

【[80星]HumanoidVerse：一个多模拟器框架，助力人形机器人从仿真到

热门分类

推荐热榜军事 NBA 体育社会明星八卦娱乐财经科技汽车历史国际游戏动漫公益搞笑商业互联网数码国际足球房产家居时尚科学探索职场育儿股票教育影视情感热点中国军情武器中国南海中国足球亚洲杯科比综合体育 CBA 投资楼市大咖秀外汇创业风口 SUV 豪车概念车优惠新能源美国欧洲朝日韩俄罗斯孕期街拍恋爱攻略婚姻正能量

科技TOP

1

快来看巴黎人工智能峰会上的合影，冯德莱恩站C位，可她肩上那只手更抢镜。好多人都在

2

有没有注意到海尔老板的领带上都是空调、洗衣机，双开门冰箱，细节满满。

3

现在的ai换脸真离谱…

4

iPhone17系列将采用LTPO屏幕也就是说，标准版iPhone终于要放弃6

5

国补后2500元以内性价比最高的手机有哪些？个人观点，红米K80、一加Ace5和

6

疑似之前陈震泄密的OPPOFindX5的保密签订这被OPPO找到了~OPPO

7

三星GalaxyS25系列价格公布，老样子比先锋版低500。S25，12+25

8

小米集团股价持续攀升，今日最高点达55.200港元。

9

选荣耀手机，看这四款就够了❗️这四款荣耀手机绝对有代表性，从旗舰到中端，再到

10

雷军传奇的一生，寝室6人，一人不落：1、林斌现任小米集团副董事长、执行董事，

科技最新文章

1

海尔总部大楼虽然看起来低调，但这座1994年建成的建筑其实处处是“文化密码”——

2

海尔的细节感拉满了！原来周总戴的领带竟然暗藏玄机！不细心看都不知道，原来领带上面

3

难怪华为Mate70优享版的定价是6199而不是5999，原来6000以上手机的

4

董明珠大大咧咧地跟雷军说：你那车的空调，交给姐来做！雷军不慌不忙，推了推眼镜，

5

有没有注意到海尔老板的领带上都是空调、洗衣机，双开门冰箱，细节满满。

6

看到中国宇树科技的崛起，印度怒推第一款量产人形机器人：臂展2.4米，上半身

7

有个事，我一直不敢说，我发现——原来雷军没儿子，只有两个女儿！老婆张彤是武大

8

雷军退出小米旗下企业合伙人行列商业版图风云变幻，雷军退出小米旗下企业合伙人行

9

一股咖喱味啊！美国的IM2无人登月项目又失败了。6日，美国雅典娜公司的第二个月球

10

中国团队搞出大事情了！全球首个通用AI智能体Manus炸裂登场，内测资格码被炒到