DeepSeek概念持续退潮Deepseek刚又发了一个论文,又加速了,不要只

烨华聊商业 2025-02-18 19:18:38

DeepSeek概念持续退潮

Deepseek刚又发了一个论文,又加速了,不要只看炒股

这论文,似乎大意是说,大模型是为长文中的每个token都和另外的token建立关联,这没有必要。很多词只和少数别的词有关系,所以token之间的联系应该是sparse稀疏的,能节省计算事件。

如果能干出来,性能不降,那又能优化很多速度。

但是具体怎么实现,就需要和硬件配合,很高难度。这次deepseek似乎干出来了。

0 阅读:245
烨华聊商业

烨华聊商业

感谢大家的关注