高盛-中国开发的模型在变得更加灵活,计算成本显著降低(例如DeepSeek模型的推理成本大幅下降),这将为后续更广泛的AI应用/AI扩散提供更多空间。 在过去一周内,DeepSeek R1、字节跳动的豆包-1.5 Pro以及Moonshot的Kimi k1.5模型几乎同时发布,引起了投资者的高度关注。这背后是中国AI玩家在基准性能与全球同行相比不断进步,同时显著降低了训练/推理成本和计算资源需求。 尽管我们对各模型的性能不发表具体看法,但注意到近期模型改进和成本优化的来源可能包括: 1)专家混合(Mixture-of-Expert,MoE)架构,该架构为每项任务使用更少的激活参数;2)对后训练阶段的重视(如深度思考模式和推理能力的引入);3)成本优化,例如资源高效的训练方法,特别是在高端芯片供应受限/不确定的背景下,中国玩家更注重效率最大化;4)模型的强化学习(RL)功能,这些模型能够通过时间不断自我改进,这是通用人工智能(AGI)的一个重要方面。 同时,我们注意到包括DeepSeek R1/V3和阿里巴巴的Qwen在内的中国开源模型,由于其透明度和显著较低的每token价格,自发布以来吸引了广泛的开发者兴趣。
高盛-中国开发的模型在变得更加灵活,计算成本显著降低(例如DeepSeek模型的
丹萱谈生活文化
2025-01-28 20:55:33
0
阅读:8