曾任Meta AI推理团队负责人,主导开发Llama 2、Llama 3和Galactica大模型的业内人评Deepseek R1:@deepseek_ai 的发布方式堪称典范——没有炒作、傲慢或模糊宣传,只是单纯向世界分享优秀成果。相比之下,美国科技公司的做法显得尴尬。 以下是他对Deepseek的评论: R1论文及相关工作确实非常出色。关于奖励塑形(reward shaping)和训练数据的问题: 1. 论文中提到奖励“主要由准确性和格式奖励构成”——仅此而已吗?是否有其他奖励机制用于激励生成更长的推理轨迹(traces)? 2. 在强化学习(RL)阶段,需要多少**独特且可验证的问题**才能让整个流程有效启动? 但我非常高兴他们终结了PRMs(过程奖励模型)、MCTS(蒙特卡洛树搜索)等过度复杂的方法!🪦
曾任MetaAI推理团队负责人,主导开发Llama2、Llama3和Gal
乐珊聊娱乐
2025-01-21 08:39:34
0
阅读:719