国产大模型Kimi有了商业化大动作。
8月2日,Kimi母公司月之暗面宣布Kimi企业级API正式发布;8月7日,Kimi开放平台的上下文缓存Cache存储费用降低50%,从10元/1M tokens/min降低至5元/1M tokens/min,上下文缓存技术适用于频繁请求、重复引用大量初始上下文的情形,此举有助于Kimi开放平台的用户降低大模型使用成本。
2024年8月2日,Kimi母公司月之暗面宣布Kimi企业级API正式发布/图源:Kimi开放平台
月之暗面是“90后”汕头青年杨植麟创立的AI独角兽公司。与此同时,8月有消息称,腾讯参投了月之暗面最新一轮融资,此轮融资后,月之暗面估值提升至33亿美元,成为国内大模型初创企业中估值最高的一家。
不过,面临一众虎视眈眈的国产大模型,Kimi是否能笑到最后,仍是未知数。
Kimi母公司月之暗面创始人:“90后”汕头青年杨植麟
巨额的投入成本与尚不清晰的商业模式,是如今如火如荼的人工智能行业面前一道无法忽视的阴影。美国的AI巨头同样为此焦虑,在寻找落地场景方面,它们不比中国公司更具优势。
2023年,OpenAI以断崖式领先的姿态,睥睨所有它的同行。现在是2024年,情况已经很不一样。
文生视频的AI产品Sora发布已近半年,海外的Runnway、Pika、HeyGen,国内的“可灵”等同类产品已经应用得火热,Sora仍然未见光明;同样处境的还有GPT4o新的语音及多模态交互功能。有人嘲讽说,OpenAI从做AI的变成了卖期货的。
GPT-4o演示现场
有外媒披露,由于高额人工智能培训成本及人员经费,OpenAI在今年可能面临50亿美元亏损。
先笑的人,不一定能笑到最后。半导体时代初启时,“仙童八叛逆”取代了半导体之父肖克利,成为硅谷真正的话事人;计算机时代初启时,“八叛逆”陆续出走,创立英特尔、微软等一众公司,摘光了仙童所有的“桃子”;互联网时代初启时,网景浏览器一家独大,不过四五年光景,一鲸落而万物生……
说到底,AI的时代才刚刚拉开序幕,群雄逐鹿,成败未定。
小型“鲸落”
今年6月,OpenAI上演了一场小型“鲸落”:大量用户被告知,OpenAI“将停止对某些未受支持的国家和地区提供API服务”,包含中国大陆和中国香港,业内着实震动了一番。
OpenAI对中国地区停止提供API服务
API是指应用程序编程接口(Application Programming Interface),由它定义不同软件应用程序之间的通信方式和交互规则。一部分开发者使用OpenAI的API提供AI服务,也就是俗称的“套壳”,一旦断供则武艺尽失。
这场震动持续了不到半天。很快,国内一众大模型公司大开方便之门,抢着“收留”这些开发者,智谱、百度文心、零一、Minimax等一拥而上,很快升级成为“一键搬家”式的服务。
智谱是最快作出反应的大模型厂商,一名智谱AI内部人员告诉盐财经,开发者将应用迁移到智谱大模型,过程很简单,“如果仅仅是切换,仅需修改一个base_url,其他参数都不需要改变”。涉及提示词等内容的适配,操作也不复杂。
技术方面,国内大模型丝毫不虚。国内目前一线水平的大模型能力已经全面逼近OpenAI,甚至有些方面,比如很多中文任务能力已有超越。
以智谱AI的GLM-4大模型为例,评估结果显示,GLM-4在MMLU、GSM8K、MATH、BBH、GPQA和HumanEval等多个通用指标上的表现与GPT-4非常接近,甚至在某些方面超过了GPT-4。
成本上,国内大模型价格远低于OpenAI,“物美价优”一向是制胜法宝。
OpenAI“断供”行为的背后,无论它是作何考虑,最后一定会意识到“挑错了对手”。中国不是它予取予夺的对象。事实上,中美两国是全球唯二的大模型重量级玩家,各有优势。
2024全球数字经济大会上,中国信通院院长余晓晖发布的《全球数字经济白皮书(2024年)》显示,截至2024年第一季度,全球AI企业近3万家,美国占全球的34%,中国占全球的15%。
从全球范围看,美国和中国发布的通用大模型总数占全球发布量的80%,两国成为大模型技术领域的引领者。
根据 SuperCLUE 2024年4月的「大模型跑分排行榜」:在全球排名前22位、可通过 API 调用的大模型中,中国大模型占据了16席/图源:SuperCLUEAI
AI企业数量,体现的是一国在AI领域的活跃度,而大模型的数量更加彰显“硬实力”。众所周知,训练大模型是一件烧钱的活儿,但一切与AI有关的功能都建立在大模型的能力上。大模型考验一国的经济实力、资本市场活力、技术水平,还有人才教育程度。当前,只有中美两国可以掰一掰手腕。
变大变强
ChatGPT发布于2022年11月底,真正引起广泛关注则是在2023年3月。当时,微软宣布将为旗下办公套件引入ChatGPT的AI功能,这是AI第一次被认可拥有可泛化的实际用途。
曾经的AI当然也有用途,但它们是专用AI,一个模型只有一个用处—人脸识别的模型负责识别人脸,自动驾驶的模型负责开车。OpenAI的GPT系列模型,走向了通用人工智能(AGI),一举声名鹊起。
OpenAI的GPT系列模型
ChatGPT的成功一度引起“反思”:为什么中国没有这样的产品?及至国内大模型井喷而出,又有评论认为,其中技术水平的差距甚大。如今再看,并不属实。OpenAI最初的光芒过于耀眼,连谷歌等也成为其“乱拳”下被打死的老师傅,这样的评价并不公允。
简单回顾AI的发展历程,即可发现,中国从未错过关键时刻。
按AI的世界发展史,目前共有四个阶段。第一阶段是上世纪50年代,美国提出AI概念,研发多层感知机。中国并未参与这一阶段,不过,多层感知机后被证实“毫无用处”,但它奠定了一些机器学习概念。
第二阶段,上世纪80年代,“AI教父”之一辛顿等人提出“反向传播”这一训练机器的方法。中国也在这一时期介入AI,1986年,国务院通过《国家高技术研究发展计划纲要》,这一系列计划被称为“863”计划,其中,“863-306”代表智能计算机主题。
“863-306”是中国AI的摇篮,也是曙光、科大讯飞、中科星图、寒武纪等一大批高技术公司的源头。国内目前AI行业中的领军人物也多与此计划有关。
“863计划”四位倡议者合影(左起:王大珩、王淦昌、杨嘉墀、陈芳允)
第三阶段,上世纪90年代,“神经网络”大行其道。第四阶段,就是从2010年至今的这一时期。大模型的概念,就来自第四阶段。
细看第四阶段。
首先是“AI教母”李飞飞,其和团队制作了一个大规模的图像数据集,取名ImageNet,其中包含了数百万张有标记的高分辨率图像,极大促进了CV(计算机视觉)发展。
2012年,AlexNet在当年的ImageNet大规模视觉识别挑战赛(ILSVRC)中取得了显著成绩,大幅超越了传统的机器学习方法。自此,卷积神经网络(CNN)成为主流架构。
这一时期,CV的高速发展孕育出中国的“AI四小龙”,商汤、旷视、依图、云从。已故的前商汤科技董事长汤晓鸥,在2014年3月发布GaussianFace人脸识别算法,在LFW数据库上准确率达98.52%,在全球首次突破人眼识别能力。
CV狂飙的同时,自然语言处理(NLP)乏善可陈,转折点的推动者是谷歌。2016年,谷歌提出如今取代了CNN的新架构Transformer。在此基础上,谷歌在2018年推出预训练模型BERT。
不同于公众,从2018年起,AI业内人士就意识到了“大事发生”。
接下来,交接棒到了OpenAI手里。在“老师傅”谷歌的框架和“预训练”思路上,OpenAI开始它的暴力美学,并在2020年推出1750亿参数的大模型GPT-3。
GPT3的训练是将模型暴露在大量文本中的过程
在OpenAI之前,没有科研人员想过堆算力、堆参数,也没人想到“暴力”堆出的大模型会出现“涌现智能”,也就是模型的能力可泛化,从而脱离专用思路。
这一时期,“中国队”没有落下。从“大炼模型”到“炼大模型”,在五道口的智源研究院内,研究者的目光始终追随。2021年3月,智源推出中国第一个系列大模型,因“五道口”的谐音,取名“悟道”。
寻找“弯道”
GPT-3出现的2020年,即是AI业内研究转向的分水岭,也是OpenAI风格转变的节点。自那以后,OpenAI收起了所有与训练大模型有关的数据、技术文档更新,每当发布新产品,都只有可怜的技术简介与几张PPT,逐渐成为被嘲讽的“CloseAI”。
后来的事大家都清楚了,OpenAI的确憋了个大招。
自2022年11月底发布ChatGPT,OpenAI将大模型或说AGI,从研究室带到了公众所在的现实生活,一时风光无限,将内功深厚的“老师傅”们统统打趴下。2023年的“百模大战”,始终是在山姆·奥特曼活跃的阴影之下。
OpenAI的CEO,Sam Altman
“老师傅”们自然不服输,比OpenAI更新的势力也在寻求出头,AI生态仍在剧烈地洗牌。
海外市场,最引人注目的是OpenAI的“二叛逆”创办的AI公司Anthropic。今年6月,Anthropic发布AI模型Claude 3.5 Sonnet,在多个关键指标上“反超”ChatGPT,新的交互方式“Artifacts”广受好评,社媒X上的许多技术博主号召“逃离ChatGPT”。
谷歌动作频频,从Bard、Gemma 到Gemini,一个个模型排队上场,打不过就“换名”再来。不说反超了OpenAI,至少谷歌最重要的搜索市场,如今还是固若金汤。
Meta走的路子更野,其核心大模型Llama系列,尽数开源,如今已是全球开源类AI生态位中的第一名。新的Llama3.1(405B)更是在指标上对齐了GPT-4,凭借开源生态,有望成为新王。
放眼国内,AI各个生态位中,选手摩肩接踵,品类齐备。以“出身”为别,可以分为三类:一类是AI初创,有智谱、月之暗面、MiniMax、百川智能等;一类是大厂出身,如百度文心、阿里通义、腾讯混元、字节豆包等;一类是研究型机构的大模型产品,如智源等。
“血战”在所难免,不必忙于封神。如前文所说,AI的时代才刚刚开启。
故事仍要从OpenAI讲起,如今,它的尴尬之处在于,“期货”与“现货”之间的落差太大。
OpenAI的“期货”,如Sora,如GPT4o的新语音交互,在推出时总是刷屏网络,让人以为“未来已来”。Sora生成的电影质感小视频仍历历在目,GPT4o的语音交互俨然《Her》中的阿曼达;可惜,仍停留在“发布会阶段”。
在GPT4o的发布会直播中显示,性能方面,GPT-4o 能在 232 毫秒内对音频输入做出反应,平均反应时间为 320 毫秒,这与人类在对话中的反应时间相近
比起科幻未来,OpenAI的“现货”很骨感。7月18日,OpenAI终于推出的新东西是“GPT-4o mini”,一个入门级别的AI模型,号称“功能最强、性价比最高的小参数模型”。
7月18日,OpenAI推出“GPT-4o mini”,并号称其为“功能最强、性价比最高的小参数模型”
按惯例,OpenAI没有公开新模型的参数量,不过,目前小模型参数大都在1.5B到13B。OpenAI强调它的“廉价”: 每百万个输入Token为15美分(约合人民币 1.09 元),每百万个输出Token为60美分(约合人民币4.36元)。这一价格相较GPT-3.5 Turbo便宜超 60%。
是的,OpenAI也必须加入“价格战”,加入当下最实际的端侧模型赛道来了。“未来”与“理想”,都得放放。
新的规则
业内关注OpenAI出了什么问题,本质上,就是在关注AI大模型的发展会出现什么问题。
一般认为,驱动大模型发展的三要素,分别是算法(人才)、算力和数据。不过,三要素真正形成驱动力,还需满足一个前提,即“Scaling Law”(缩放法则)依然有效。
“Scaling Law”是指,大模型的能力随着参数的增加、训练数据的增加而增加。这就是OpenAI的“暴力美学”,倡导大力出奇迹。
Scaling Law最重要的公式表明随着参数增加及训练数据的增加,大模型能力也随之增强/图源:零一万物
尽管OpenAI自GPT-3以后不再公开模型参数量,但业界普遍的推断是,GPT-4的参数量有1.8万亿(1800B)。而人脑中有10万亿神经元,这一跨界而来的数据,给很多AI从业者以“Scaling Law”仍有突破空间的信心。
但现在,越来越多模型赶上GPT-4的水平,依然不见GPT-5的发布,是不是“Scaling Law”已经遇到瓶颈?
另有观点认为,OpenAI不推新品,并非Scaling Law失效,可能是因为收不回成本。昆仑万维董事长兼CEO方汉在今年5月曾说:“根据我得到的消息,OpenAI已经训出来了(GPT-5),也不是能力不行,但是它现在没有把握在工程上把这个东西效益最大化。”
换言之,当前AI仍没有找到合适的场景变现。如Sora,可能技术已经达标,但成本太高,不适合大范围地推广。
智能上限和应用场景,是当前大模型公司的两个焦虑源泉。这一点上,中美公司殊途同归。
智能上限的方面,“暴力美学”的上限仍未见顶,但与此同时,“知识密度”被看作未来大模型新的智力增长曲线。
该概念由智源出身、现面壁智能创始人刘知远提出,由此出发,其提出“AI时代的摩尔定律”为,平均每8个月,大模型的知识密度提升一倍。
该路径下,扩大参数不再是唯一解,小模型也能有大能力。这正是主打性价比的GPT4o Mini提倡的,面壁为其的诞生发文称,“欢迎一起Mini”。
在寻找AI落地场景方面,国内大模型公司明显更具优势。
首先,国内大模型较早地、更专注于做垂直的基础大模型。这似乎是从中国第一个大模型系列“悟道”而生的一种传统,“悟道1.0”包含“文源”“文澜”“文汇”“文溯”四个模型,各有专攻。再到华为,今年6月发布的盘古大模型5.0,包含盘古自然语言大模型、多模态大模型、视觉大模型、预测大模型、科学计算大模型等。
盘古大模型5.0能够重塑媒体内容生产和应用领域
其次,国内对新技术的接受度一向较高,“AI+”的风潮已吹向各行各业,这在日常生活中就能感受到,无须列举。
最后也最重要的是,中国本土强大且完备的制造业供应链,能够提供给AI更多的空间。
以自动驾驶为例,中国市场的新能源汽车渗透率已接近过半,“下半场”的智能化已经开打,以大模型为基础的“端到端”新一代智驾技术,如今在中国已有多家公司研发并开始上车试验。而在美国,仅有特斯拉一家。
依托制造业,中国对新技术的吸收和开发速度极为灵敏。这是中国大模型公司相比美国同行的一大优势。AI时代的序幕拉开后,真正的决战战场必在于此。