起底deepseek爆火背后的推手 DeepSeek掀起涨停潮
最近,科技圈被中国AI公司DeepSeek搅得“天翻地覆”,它推出的R1大模型,以超低成本、媲美OpenAI的卓越性能,成功“杀疯”,成为大家热议的焦点。今天,咱们就全方位深挖一下DeepSeek背后那些千丝万缕的产业关联,看看它究竟是怎样“牵一发而动全身”的。
股权关联:资本力量的暗潮涌动
在DeepSeek的成长背后,有着强大的资本力量在推动。每日互动,作为一家在数据服务领域小有名气的公司,其身份可不简单,它是幻方量化(DeepSeek母公司)的二股东,这意味着每日互动在DeepSeek的发展战略上有着举足轻重的话语权,也为双方在数据资源共享、技术研发合作等方面提供了天然的便利。
浙江东方,通过旗下杭州东方嘉富基金参投DeepSeek天使轮,早早布局,眼光独到。这一投资不仅为DeepSeek注入了早期发展的资金,也彰显了浙江东方在新兴科技领域的前瞻性布局,期待未来能收获丰厚的回报。
团队实力:年轻血液的创新风暴
DeepSeek的团队堪称“年轻有为”的代名词。应届生、在读生,特别是来自清北的应届生在其中非常活跃。他们中的一些人,2024年一边在DeepSeek搞研究,另一边新鲜热乎的博士学位论文刚评上奖。
为DeepSeek提出MLA新型注意力、GRPO强化学习对齐算法等关键创新的,几乎都是年轻人。在2024年5月发布的DeepSeek-V2中,最重要的创新是提出了一种新型注意力,在Transformer架构的基础上,用MLA(Multi-Head Latent Attention)替代了传统的多头注意力,大幅减少了计算量和推理显存。而做出这一关键创新的高华佐和曾旺丁,前者是北大物理系毕业,后者来自北邮 。
从团队构成可以看出,DeepSeek非常重视模型算法和硬件工程的配合。DeepSeek V3论文总共200位作者,并不都是负责AI算法或数据,有一批人从早期的DeepSeek LLM V1到V3一直都在参与,他们更多偏向算力的部分,负责优化硬件。他们以DeepSeek AI的名义发表了论文《Fire-Flyer AI-HPC》,通过软硬件协同设计降低训练成本,解决传统超算架构在AI训练需求上的不足。
技术创新:低成本的惊艳逆袭
2024年底,DeepSeek发布的新一代MOE模型DeepSeek-V3首个版本并同步开源。V3拥有6710亿参数,其中激活参数为370亿,在14.8万亿token上进行了预训练。从公开披露的信息来看,在知识类任务、代码能力和数学能力上,V3都有着出色的表现 。
而真正让其受到大量关注的,是DeepSeek在技术论文中表示,DeepSeek-V3模型总训练成本为557.6万美元,完整训练消耗了278.8万个GPU小时,几乎是同等性能水平模型训练所需十分之一。这让它在海内外再度爆火。
相比于国外微软、Meta、特斯拉等科技巨头动辄购入10万张英伟达显卡搭建算力中心训练AI模型,国内拥有1万张以上显卡的公司屈指可数。DeepSeek背后的开发公司幻方就是其中之一,2023年在接受36氪专访时,幻方创始人梁文锋称“公司已囤有1万张英伟达A100显卡”。而DeepSeek-V3此次的特别之处在于仅用少量卡就完成了模型训练。
DeepSeek的爆火绝非偶然,股权关联提供了发展的底气,年轻团队注入了创新的活力,技术创新则铸就了成功的基石。在未来的AI赛道上,DeepSeek又将创造怎样的辉煌,让我们拭目以待。