当马斯克的xAI高调推出基于20万块GPU集群的Grok-3、SamAltma

肯定不下楼 2025-02-21 19:19:15

当马斯克的xAI高调推出基于20万块GPU集群的Grok-3、Sam Altman在开源策略上反复权衡之际,杭州DeepSeek悄然发布了一项可能改变游戏规则的技术。2月18日,DeepSeek CEO公布了一项由梁文锋亲自参与的研究论文成果——原生稀疏注意力(Native Sparse Attention, NSA)机制。这是DeepSeek团队在稀疏注意力领域的创新性工作,结合了算法创新和硬件优化,旨在解决长上下文建模中的计算瓶颈。 DeepSeek最新公布的原生稀疏注意力(Native Sparse Attention, NSA)机制不仅将大语言模型处理64k长文本的速度最高提升11.6倍,更在通用基准测试中实现性能反超传统全注意力模型。如果后续DeepSeek将NSA整合到模型训练中,其基座模型的能力有望实现显著提升。

0 阅读:162
肯定不下楼

肯定不下楼

感谢大家的关注