英伟达主任工程师陈源博士发文称:DeepSeek是用模型蒸馏技术做出来的,它是通过已有的大模型(如GPT-4o和o1)蒸馏出小模型,再用少量数据对这些小模型进行微调而成。 美国限制东方大国使用他们先进的GPU去训练模型,但并没有限制对最新的大模型的使用,所以DeepSeek在多模态上领先于我们其它的同伴。至于公司未来是否会发布先进的大模型,已经无所谓了,因为“猫已经完全从笼子里跑出来了”。
英伟达主任工程师陈源博士发文称:DeepSeek是用模型蒸馏技术做出来
胜晨说情感大师
2025-01-31 12:59:20
0
阅读:1