R1-V,这个项目将DeepSeekR1的训练方法用在视觉语言模型上,效果非常

又仁看科技 2025-02-03 13:18:33

R1-V,这个项目将DeepSeek R1的训练方法用在视觉语言模型上,效果非常amazing啊,2B模型在100个训练步骤内就超越了72B模型的OOD测试表现。整个训练仅耗时30分钟,成本不到3美元。

github.com/Deep-Agent/R1-V

“我们首先揭示了,具有可验证奖励的强化学习(RLVR)在视觉语言模型(VLMs)上,在有效性和超出分布(OOD)鲁棒性方面均优于思维链监督微调(CoT-SFT)。

在我们的实验中,我们鼓励VLMs学习具有可泛化的视觉计数能力,而不是过度拟合训练集。

在仅经过100个训练步骤的OOD测试中,2B模型超越了72B模型。

训练在8个A100 GPU上进行,耗时30分钟,成本为2.62美元。”

项目的代码、模型、数据集、更多细节及所有开源资源将会在春节假期结束后共享。(现在数据集已经公开)

0 阅读:2
又仁看科技

又仁看科技

感谢大家的关注