Deepseek是个蒸馏模型*,蒸馏的意思就是拿模型生成的数据去训练新模型,这

宇宙故娱乐 2025-02-04 12:26:56

Deepseek 是个蒸馏模型*,蒸馏的意思就是拿模型生成的数据去训练新模型,这意味着他要进步只能等着别人进步。这也是为什么 DS 的训练成本如此之低的原因,他本质上不是0号始祖模型。传说 OpenAi、Claude*和谷歌手里都有一个秘密的超级能力的0号始祖模型不放出来,我们现在能用到的这些什么40、sonnet*和 gemini,都是他们手里的那个秘密的0号始祖模型蒸馏出来的。 当然,Deepseek 非常厚道,他们的模型是MIT 条款的,意味着可以随意商用,打掉世界大模型的价格,功不可没。

0 阅读:467

评论列表

三生石

三生石

5
2025-02-04 18:01

到现在也没拿出证据啊,只是猜测

Thinksoso

Thinksoso

4
2025-02-04 22:08

一个蒸馏出来的ai小编。。。

解构剖析

解构剖析

4
2025-02-04 13:36

deepseek的亮点在于显存需求的降低,不懂别乱说

月淡风清

月淡风清

2
2025-02-04 21:30

你懂个。。

宇宙故娱乐

宇宙故娱乐

感谢大家的关注