AI视角|最客观的DeepSeek深度解析:精打细算的王者,借米之炊的巧妇(4

姬锋 2025-02-04 18:29:06

AI视角| 最客观的DeepSeek深度解析:精打细算的王者,借米之炊的巧妇(4)

摘自蘇硯Qiantech 小签科技

今日明星:DeepSeek的我命由我不由天

在中国大模型训练面临算力资源极度匮乏的困境下,DeepSeek仅凭一万张显卡便成功研发出性能比肩OpenAI 的DeepSeek-V3与DeepSeek-R1模型,并以开源策略震撼业界。这家低调的AI企业由此逆势突围,凭借突破性技术成果跃升为全球人工智能赛道的最大黑马。

那么DeepSeek具体到底做了哪些创新呢?

4.1 押注算法优化创新:为手里少的可怜的GPU精打细算

话说在如此艰苦的背景下,这DeepSeek发挥了中国人民上下五千年的勤劳勇敢智慧的优良品质,精打细算(抠抠索索)的竟然真的通过各个方面的算法优化创新大大降低了模型训练对GPU显卡的依赖!我们且看它如何精打细算:

典型创新1:双Token预测机制:嘿嘿,我腿长一次跳两格!

简单理解就是从一次预测一个Token变成一次预测2个Token。技术原理:采用动态窗口双路解码架构,通过改进注意力层的掩码(Mask)机制,使模型在解码阶段同时生成两个候选Token。不同于传统推测式解码需要额外验证网络,该方法通过门控网络实时评估候选Token置信度,选择最优路径。解决了传统并行解码中候选Token间依赖关系破坏问题,通过预训练阶段的渐进式训练策略(逐步增加并行窗口),使模型保持原有语言建模能力的同时习得并行预测能力。

典型创新2:使用MoE混合专家机制:啊喂,叫你出来你再出来!

和传统FFN不同的是,DeepSeek采用混合专家路由(MoE)机制,每个MoE层包含128个专家,根据输入复杂度自适应选择1-3个专家(平均1.8个),通过课程学习使专家形成分层知识表示,这样每个样本只是激活部分参数,就可以增加模型的容量而非计算量。这有点像我们去医院,看个病FNN会喊出所有的专家医生轮流筛选过滤一遍,这样费神费力还费时,但是MoE模型则是先针对性确定你是哪类的病,挂哪个科室,再选择1-3个医生来帮你诊断。这样算力再一次得到了节省。

典型创新3:GPU利用率优化:一刻也不能闲着,给爷干!

通俗点理解就是精打细算的使用GPU,通过工作机制的优化让GPU里的每个串流复合处理器Streaming Multiprocessors(SM)减少闲置时间,增加利用率。具体则是通过计算-通信超流水线:将单个计算图分解为72个微任务,与NCCL通信操作深度交织,通过强化学习模型预判张量使用周期,实现显存块的智能复用,混合精度动态调度使得可以在FP8/FP16/FP32浮点间实时切换,这一系列的操作下来GPU上达到92.7%的SM利用率,相比传统实现提升2.3倍,批处理延迟波动降低至±1.2ms。

通过上面GPU的讲解大家明白米国同学因为手里货多,所以都是粗放式用卡,咱们不一样啊,手里货少必须精打细算的抠细节。所以DeepSeek在精细化用卡这方面真的是很王者级的存在了。

典型创新4:带宽利用率提升:你限我带宽我就减少通信!

提出显存虚拟化技术,通过地址重映射实现显存-内存统一寻址,实现PCIe 4.0通道的93%带宽利用率,使模型显存需求从传统方案的64GB降至28GB。

而这些一个个精打细算的创新做法相互影响又相互作用,形成正向技术循环:MoE结构降低单次计算量→双Token预测提升计算密度→显存优化支持更大批处理→GPU利用率提升加速迭代。实测显示,在32GB显存环境下,相比传统Transformer,实现吞吐量提升8.2倍(短文本)到10.7倍(长文本)。

4.2不走寻常路的捷径创新:借米之炊跳级训练模式

典型创新1:借米之炊之跳级训练,生米直接炒饭

就像上文中提到模型训练的四个流程:预训练--监督微调--奖励模型--强化训练。大家记得肯尼亚血汗工厂的监督微调(SFT)过程吧?DeepSeek由于资源有限,跳过了这一步,直接去做强化训练去了。。。。就像是自学完课本之后,不需要老师讲解,直接进入做题模式,通过大量的做题-评分-奖励的训练闭环,让DeepSeek自己知道什么样的答案是对的,在大量的数据强化学习训练之后,它。。。成魔了。那么以后大模型巨头还需要Scale-AI公司的服务吗?

实现效果显示:

训练效率提升:在GSM8K数学推理任务上,达到同等精度所需的训练步数减少42%

成本优势:相比传统SFT+RLHF流程,计算资源消耗降低57%(A100小时数从3.2万降至1.4万)

性能表现:在MT-Bench基准测试中获得8.31分,与经过SFT的模型差距小于0.15分

在极致的成本压缩下,DeepSeek展现出一条与众不同的捷径之路:生米不需要煮成熟饭才可以炒饭,生米可以直接炒饭并且验证成功。这仿佛是一道对整个行业都震惊但验证合理的脑筋急转弯。果然国人在我命由我不由天勤劳勇敢这条赛道上展现了惊人的才智魅力。

典型创新2:借米之炊之知识蒸馏技术:借老师的米炒自己的饭

问题来了,为什么DeepSeek可以做到跳过SFT阶段呢?

我们先来了解一种技术叫做知识蒸馏:知识蒸馏的核心呢一般是让一个小模型(学生模型)去模仿一个大模型(老师模型)的输出,教师模型通常更大,更复杂,而学生模型更小,这样的好处是可以将大模型的知识迁移到小模型。知识蒸馏的本质就是“迁移”教师模型的知识,让学生模仿教师。显而易见如今有一个标准,典型且还在不断发展成熟的花费了大量的GPU财力物力智力以及肯尼亚的血汗造就的千年难得一遇的教师模型,没错就是GPT。于是,很多问题就有了现成的答案,有了答案后就有了评分标准,有了评分标准不就有了上面跳级所需要的最最重要的因素——评分标准。只要把OpenAI的答案作为评分标准,那么就可以倒推思维过程,跳过SFT直接做强化训练。

典型创新3:因为逆向推理,更注重问题拆解和思维链,反而成就了优秀的推理模型

因为OpenAI是一个闭源公司,GPT只会给答案,它的思维过程并不会被公开,所以我们的deepseek学生模型为了能够被评的更高分,更接近教师模型,就通过答案训练,大量拆解了过程的思维链,通过正确的思维链才能够不断的优化,输出更多和预期值偏差更小的答案,就这样训练着训练着,竟然。。。。青出于蓝而胜于蓝了!DeepSeek被训练拥有了强大的思维链推理逻辑,再加上DeepSeek更开放的策略,把整个思维链过程全部展示出来,反而得到了大众的一片称赞,更佳的认为DeepSeek的用户体验超越GPT!

这。。简直就是在演电视剧一样的反转情节。

4.3 炒饭不收钱:大模型商业化的“搅局者”

众所周知,饭是人类不可或缺的食粮,人为饭花钱天经地义。生米没办法吃,白米饭太干不好吃,只有炒饭是色香味俱全拿来皆可食用。于是在人类不可或缺的食粮上,炒饭大商家OpenAI和”燃气供应商“英伟达正大喊”桀桀桀桀,让我们大赚一笔“,然后,然后,DeepSeek跳出来:大家快来领炒饭的工具啦,免费发放(开源),你自己也可以造一个哦....

是的,仅在OpenAI发布ChatGPT一年多之后就遇到了强力搅局者DeepSeek,而这个创始人又偏偏佛系商业化,人家根本没想着靠大模型赚钱,而是为了建设生态,造福人类,为全人类谋福利...关键是这个搅局者通过精打细算的算法和借米之炊的数据训练完成了不依赖GPU显卡的低成本训练模式,对上下游依赖性减弱,同时借米之炊的知识蒸馏技术造成了对同行业的冲击,数据训练成本大幅度降低,对早期投入高成本的OpenAi和其他大模型开发者都是冲击。所以如何评判这次的搅局行为呢?有人欢喜有人忧,无论如何肯定是推动社会进步了,只是所有历史上社会进步的关键时刻,势必有人在牺牲,对吧(OpenAI抹抹眼泪)。

OpenAI此时恨得是,为什么不是我先提出开源,竟被这毛头小子抢了风投,或许应该是我一开始提出开源策略,这样至少还能得个名垂青史(本来是开源AI,结果奥特曼把原股东和董事成员赶走并改成闭源。昨天2月1日奥特曼公开承认闭源的决策是错的,需要重新思考OpenAi的开源策略。).....

至此这场经典的炒饭闹剧第一季告一段落,接下来正在发生的开启了第二季的序章....

0 阅读:6
姬锋

姬锋

感谢大家的关注