今天A股下跌的一个导火线,马斯克发布Grok 3模型,据说在多个性能超过了DeepSeek!
盘后,梁文锋携DeepSeek团队发布重磅论文,比OpenAI关注度都高。这篇新论文提出了一种新的注意力机制 ——NSA。DeepSeek称,NSA是一种可原生训练的稀疏注意力机制,它将算法创新与硬件对齐优化相结合,以实现高效的长上下文建模!
老陈去看了下原文,有些内容看不懂,但感觉是在回应Grok-3。这个新机制,很可能在下一次更新中体现,让我们看到更强大的deepseek。
现在中美都把人工智能当作国运的竞争,两国在AI大模型竞争白热化;目前大模型进化很快,所以交替领先很正常!作为国运级的产品,我们对DeepSeek要有信心。