这几天美国AI圈被中国大模型惊到了。

脆脆卷 2024-12-30 11:01:28

DeepSeek-V3首个版本上线,不仅能力赶超海外,更重要的是:训练成本大幅下降。

比如,DeepSeek的模型规模为 671B,预训练仅用280万GPU小时;而Meta旗下的Llama3,规模要小一些,为405B,

但训练时长为3000万 GPU小时。更强大的DeepSeek用时却不到十分之一。难怪被称为大模型界的拼多多,引来海外许多大佬的点赞。

DeepSeek的数据,引起了一个重要话题:算力需求是不是减少了。

先说结论,算力总需求并不会减少,边际变化要看动态博弈。

想象一个场景,大家都在辛苦努力学习。有一个同学突然开窍了,学习效率大幅提升,干一份工出十分果,那会发生什么变化。

首先,肯定不代表努力不重要了。与之相反,其他学生要想保持原来的名次,反而不得不更加努力。

至少在目前肉眼可见范围内,堆算力,依然可以带来模型效果提升。第一名复习一晚上能考100分,不代表普通同学也只复习一晚上就行。

其次,来看下DeepSeek“开窍”的方法。AI发展就是算力、算法、数据,三个要素一直都很重要,

哪方面有提升都可以。DeepSeek这次是算法的改进。他们采用了MoE模式,也就是混合专家网络。

简单理解就是,有一堆专家,他们各自擅长不同场景。但是,这些专家不同时工作;而是有位调度员,他来判断需要谁时再叫谁。

这样需要的总算力就减少了。这个模型架构不是秘密,只是落地路径需要探索。和GPT的稠密模型相比,两者在不同场景、任务下,

优劣不同。稠密模型的通用性、稳定性会更好,自然成本也会更高些。

这一次,DeepSeek在MoE架构上提出了新算法,也有一些通信协议改进等方法,最终有了现在的效果。

但是这不意味着算力不重要,而是说,用好算力、提升效率更重要。如果咱们期待的效果不变,那算力需求是减少了。

但是,我相信大部分人的做法都是,在这种高效方法下,继续努力。 而且DeepSeek也把算法开源了。

这就意味着大家都能开窍了,AI整体发展会再被加速,能力越来越快,也可以尽早进入推理、应用大爆发的阶段。

所以,整体来说,DeepSeek再次告诉大家,算法改进依然很重要。可以暴力堆算力,也可以灵巧用算力。

最后我觉得,如果最终DeepSeek真的能在AI界占据一席之地,那非常有意思。

因为它的母公司是家量化公司幻方,买卡的最初目的是用来做量化,但现在居然能和科技巨头们竞争、拼出一片新天地。

这就像,显卡最初是为了游戏更好玩,但如今已经是推动人类科技发展的关键。

我就想到一句话:伟大,有时并不能被规划。 #美国AI

0 阅读:43
脆脆卷

脆脆卷

职场上的那些事