不管DeepSeek如何在论文中说,想要训练出更好的能蒸馏学生模型的教师模型,仍

丹萱谈生活文化 2025-01-29 20:48:19

不管DeepSeek如何在论文中说,想要训练出更好的能蒸馏学生模型的教师模型,仍然需要更强大的基础模型和更大规模的强化学习;还是大厂和DeepSeek自己说Scaling Law还要继续(参考小熊老师);还是DeepSeek反复宕机(说明推理成本的降低,还是会被增加的推理量吃掉)。 但是事实是,市场短期选择了用脚投票,昨天美股igv-1.66%,smh-9.83%(盘后均有所回升)。盘面上,大家把希望寄托于终端和应用。数据中心相关硬件几乎全军覆没,包含卡、fab、交换机、液冷、连接,甚至量子与核能。软件,meta(这个没想到,以为ds会颠覆meta开源一哥,不过想想meta本质还是应用公司)、crm、zoom、twlo、now全部从夜盘和盘前低点拉了回来。终端,aapl一枝独秀,虽然被下调评级;高通也缓过神来,从夜盘-5%到盘后翻正。 市场总是对的。但是,【因为便宜,所以普及】。想到了安迪比尔定律:硬件成本的下降会迅速被软件性能提升消耗掉。又学习了AI版的“Jevons悖论”(Jevons悖论指的是随着改善“资源使用效率”,反过来会导致该“资源的使用量增加”)。算力绝对没有到尽头,【等到我七大姑八大姨都在用ai产品了再说】。这也是我们之前一直看好aapl的原因,确实apple intelligence功能在二级人眼里都是老掉牙的ai功能,但是如果它能够把这些能力普及给之前完全不会去用ai的人,那就是巨大的市场空间。 DeepSeek的Janus pro升级版文生图也发布了(还没来及学),这个春节ds就是最靓的仔。hw也正式宣布了昇腾适配r1 distill模型。 后续,先看假期海外大厂财报叙事能否反击ds。国内外基本都认同,软件和终端是利好,短期nvda甚至可能要奔着90去了(参考上次由于所谓财报不及预期、交付延迟、asml地缘zz、经济衰退、roi担忧等因素,nv从140迭到90,但结果证明是上车机会,别忘了nv还有机器人叙事)。国产算力在积极跟进,国内端侧在强势演绎,国内应用蓄势待发。我们保持持续关注! [烟花]新年快乐!

0 阅读:37