deepseek的开源方向开始开花结果了。
来自清华大学的kvcache.ai团队即将发布的ktransformer大模型加载框架v0.3,大大优化了本地加载满血deepseek 671b的运行效率,
目前仅用一台双路Intel Xeon 4代cpu+一块24g显卡的服务器就跑出了13 tokens/s的速度,中文每秒应该有20字左右,3倍于llama.cpp
deepseek的开源方向开始开花结果了。
来自清华大学的kvcache.ai团队即将发布的ktransformer大模型加载框架v0.3,大大优化了本地加载满血deepseek 671b的运行效率,
目前仅用一台双路Intel Xeon 4代cpu+一块24g显卡的服务器就跑出了13 tokens/s的速度,中文每秒应该有20字左右,3倍于llama.cpp
猜你喜欢
【3评论】【2点赞】
【3评论】【4点赞】
【16评论】【9点赞】
【51评论】【98点赞】
【2评论】【7点赞】
【3评论】【3点赞】
作者最新文章
热门分类
社会TOP
社会最新文章