Deepseek 是个蒸馏模型*,蒸馏的意思就是拿模型生成的数据去训练新模型,这意味着他要进步只能等着别人进步。这也是为什么 DS 的训练成本如此之低的原因,他本质上不是0号始祖模型。传说 OpenAi、Claude*和谷歌手里都有一个秘密的超级能力的0号始祖模型不放出来,我们现在能用到的这些什么40、sonnet*和 gemini,都是他们手里的那个秘密的0号始祖模型蒸馏出来的。 当然,Deepseek 非常厚道,他们的模型是MIT 条款的,意味着可以随意商用,打掉世界大模型的价格,功不可没。
Deepseek是个蒸馏模型*,蒸馏的意思就是拿模型生成的数据去训练新模型,这
宇宙故娱乐
2025-02-04 12:26:56
0
阅读:467
三生石
到现在也没拿出证据啊,只是猜测
Thinksoso
一个蒸馏出来的ai小编。。。
解构剖析
deepseek的亮点在于显存需求的降低,不懂别乱说
月淡风清
你懂个。。