R1-V，这个项目将DeepSeekR1的训练方法用在视觉语言模型上，效果非常

又仁看科技 2025-02-03 13:18:33

R1-V，这个项目将DeepSeek R1的训练方法用在视觉语言模型上，效果非常amazing啊，2B模型在100个训练步骤内就超越了72B模型的OOD测试表现。整个训练仅耗时30分钟，成本不到3美元。

github.com/Deep-Agent/R1-V

“我们首先揭示了，具有可验证奖励的强化学习（RLVR）在视觉语言模型（VLMs）上，在有效性和超出分布（OOD）鲁棒性方面均优于思维链监督微调（CoT-SFT）。

在我们的实验中，我们鼓励VLMs学习具有可泛化的视觉计数能力，而不是过度拟合训练集。

在仅经过100个训练步骤的OOD测试中，2B模型超越了72B模型。

训练在8个A100 GPU上进行，耗时30分钟，成本为2.62美元。”

项目的代码、模型、数据集、更多细节及所有开源资源将会在春节假期结束后共享。（现在数据集已经公开）

0 阅读：2

又仁看科技

感谢大家的关注

作者最新文章

1

电子书《How to Scale Your Model》如何扩展模型：TPU

2

Hugging Face 团队发了篇博客介绍了对 OpenAI 的 Deep R

3

开工大吉！🎉

4

CUDA_Kernel_Samples：CUDA 算子手撕与面试指南github

5

又一个Deep Research的开源实现，大家动作都好快。。github.co

6

DeepSeek R1回答多位数乘法和除法的准确率。位数不多时都能算对，十几位数

7

直播间送的车你抢到过吗某车帝这个，太大手笔了，太有钱了，一天直接抽100量车

8

一本概率论与归纳逻辑入门教材《Odds & Ends》jonathanweisb

9

电子书《Beej 的进程间通信指南》beej.us/guide/bgipc/《B

10

推理类大语言模型的可视化指南newsletter.maartengrootend

热门分类

推荐热榜军事 NBA 体育社会明星八卦娱乐财经科技汽车历史国际游戏动漫公益搞笑商业互联网数码国际足球房产家居时尚科学探索职场育儿股票教育影视情感热点中国军情武器中国南海中国足球亚洲杯科比综合体育 CBA 投资楼市大咖秀外汇创业风口 SUV 豪车概念车优惠新能源美国欧洲朝日韩俄罗斯孕期街拍恋爱攻略婚姻正能量

科技TOP

1

mac你真的神了🫶

2

为什么央视不让苹果露出？在2024年春晚上，有一个细节值得注意，陈奕迅使用的

3

有点想换手机的冲动了

4

小米要破万亿市值了？太猛了，美国关税的情况下，小米都能猛涨[并不简单][加油]

5

多平台宣布上线DeepSeek大模型：腾讯云、阿里云、华为云、360、亚马逊A

6

2025年几乎零差评的几款手机！你认同哪一款？1.Magic72.OPPO

7

扎克伯格宣布2025年投入650亿美元，建立自己的AI大数据库，可是没想到这两天

8

马斯克才是2025最大的冤种！马斯克大选花了2.9亿美元，最后得了个弼马温的职位

9

4款2000档位的手机怎么选？这个价位，一般都是给孩子买的，玩游戏多一些

10

deepseek被用户训练得成精了！

科技最新文章

1

昨天雷军不是发了微博说，标是金子做的嘛，今天我专程替大家来环球港看了看。现在的金

2

【#澳禁止政府系统和设备使用DeepSeek#，澳部长辩称：不是针对中国】据澳

3

小米市值彻底失控估计就连雷军都想不到吧！才过去1个月时间，这哪里是超越和碾压，

4

2025年几乎零差评的几款手机！你认同哪一款？1.Magic72.OPPO

5

国补降价最狠的4款手机！嗯认同哪一款？1.荣耀Magic7，发布价4999，

6

荣耀手机哪几款比较值得入手？相信下面这4款一定不会让你失望。荣耀X60Pro

7

deepseek被用户训练得成精了！

8

小米集团市值突破万亿港元买了小米股票的朋友真的发财了，小米卖手机卖了十多年，上

9

4款2000档位的手机怎么选？这个价位，一般都是给孩子买的，玩游戏多一些

10

卢伟想把DeepSeek商标转让给美国公司，用美国法律保护他不被东方大国法律制裁