DeepSeek概念持续退潮
Deepseek刚又发了一个论文,又加速了,不要只看炒股
这论文,似乎大意是说,大模型是为长文中的每个token都和另外的token建立关联,这没有必要。很多词只和少数别的词有关系,所以token之间的联系应该是sparse稀疏的,能节省计算事件。
如果能干出来,性能不降,那又能优化很多速度。
但是具体怎么实现,就需要和硬件配合,很高难度。这次deepseek似乎干出来了。
DeepSeek概念持续退潮
Deepseek刚又发了一个论文,又加速了,不要只看炒股
这论文,似乎大意是说,大模型是为长文中的每个token都和另外的token建立关联,这没有必要。很多词只和少数别的词有关系,所以token之间的联系应该是sparse稀疏的,能节省计算事件。
如果能干出来,性能不降,那又能优化很多速度。
但是具体怎么实现,就需要和硬件配合,很高难度。这次deepseek似乎干出来了。
猜你喜欢
【20评论】【30点赞】
【281评论】【87点赞】
【3评论】【2点赞】
【7评论】【2点赞】
【76评论】【37点赞】
【3评论】【3点赞】
作者最新文章
热门分类
财经TOP
财经最新文章