Key Points
算力问题是个伪命题吗?
大模型的准确率到底是不是问题?
自动驾驶:端到端方案进展到哪一步了?
视频生成的内容平台机会是新创公司的,还是老平台的?
人形机器人的ChatGPT时刻何时到来?
大厂在WAIC发布了啥?
世界人工智能大会(WAIC 2024)有可能是有史以来「最年轻」的一次展会——也是猎头参会最多的一届。
为期3天的展会期间,华为、阿里云和腾讯、百度等大厂在展会期间占据了最大的论坛和展会场地,不过在声量和关注度上,AI新势力们吸引了更多关注——新势力既包括MiniMax、智谱、百川智能、面壁智能、智子引擎等新创大模型公司,也包括快手、生数科技、爱诗科技、Haiper AI、FancyTech等视频生成公司,以及星动纪元、宇树科技、银河通用等机器人公司。
从年纪看,这些公司都是最近两三年才成立的,其中不少创业者还有一半身份在大学校园,尤其在人形机器人领域,比如星动纪元创始人陈建宇,他的身份同时还是清华大学助理教授,北大-银河通用联合实验室主任王鹤同时是北京大学助理教授,而穹彻智能联合创始人卢策吾同时是上海交通大学教授。
这些年轻公司和年轻创业者显示了由ChatGPT掀起的生成式人工智能所处的阶段:一切刚刚开始。这里充满着机会,也充满着不确定性,以及「危险」。「新皮层」获得的消息称,不少猎头公司派人参与了这次展会,猎聘等猎头公司在展览中心设立了展台,猎头们则忙于在各个会场和展台「狩猎」。与此同时,不少开设分会场的公司都祭出了更为严格的保安措施,不允许参会者寻求公司高管、产品负责人们的联系方式。有初创公司内部人士对「新皮层」称,他们甚至收紧了对外发布新产品的节奏。
根据官方公布信息,截至7月6日下午14时,本次人工智能大会线下参观人数突破30万人次。
在这个体感温度高达40度却仍有30万人参与的大会中,我们整理了讨论最为热烈的6个议题,它们是业界过去1年中最为困惑、最富争议、同时也是对未来发展最具预测性的关键问题。你会看到大厂如何基于既有立场讲述新故事,也可以看到新势力如何各显神通努力将自己留在牌桌上。
算力问题到底是不是问题,云、端、大模型公司各持己见
高通倡导强化端侧算力,以推动AI的深层次应用
高通中国区董事长孟樸称,当前生成式AI的研发和应用主要集中在云端,如果将20%的生成式AI工作负载转移到终端侧,预计到2028年将节省160亿美元的计算资源成本。而且,为了推动深层次AI的广泛应用,也需要将其能力延伸到日常使用的智能设备上。高通倡导在终端侧开发更高性能的AI处理器,并优化生成式AI模型,使其体量更小、效率更高。孟樸认为随着小型生成式AI模型质量提高,最终市场能够在终端设备上运行与云端大模型相当、甚至更好的AI模型。目前,高通已推出第三代骁龙8移动平台,最高可以支持100亿参数的生成式AI模型。
华为的创新方向是把端侧问题放到云端解决,降低对端侧芯片依赖
和高通中国区董事长孟樸的观点不同,华为常务董事、华为云首席执行官张平安在发言中更加强调云端计算在大模型时代的重要性。他声称,不能把人工智能基础设施放在对最先进制程AI芯片的依赖上,端侧算力受限,就应该把端侧的算力需求释放到云端,因为中国公司在云端拥有更强的5G网络优势,通过网络的上行和下载效率解决端侧算力问题。
张平安称,目前华为终端设备的很多任务都在云端完成,比如云办公、云拍照、云手机、云游戏、云设计。一个简单的例子是拍照。张平安称,华为手机里有多个镜头,用户拍照时每按一次快门,手机都会拍下至少6张照片,然后算法会通过整合这6张照片最终为用户提供细节丰富的景象。这一整合过程在端侧解决和在云端解决的结果差异巨大,借助云端算力,多张照片整合后的效果可以更加清晰和立体。
华为已专门派了很多项目组思考如何把端侧算力需求放在云层解决,从而保持端侧功能的丰富性,又降低功耗和对芯片的依赖。「对我们来说,我们思考的创新方向就是不要把端侧做得太复杂。」张平安在发言中说。
阿里云创始人王坚说「算力问题是个伪命题」
之江实验室主任、阿里云创始人王坚自称「一个无药可救的技术乐观主义者」。今天很多人说中国公司的算力是个问题,他认为这是个伪命题,因为「跟(中国)现有的基础模型相比,我们的应用做得不够好;与(中国)现有的算力相比,我们的基础模型做得不够好;与我们现有的电力相比,我们的算力还不够」。在这个不等式下,他认为能源至少不是做人工智能要担心的问题,是做基础设施要担心的问题。新的能源会出来、新的算力形式会出来,所有问题都是要在动态过程中解决。
对于大公司而言,王坚认为人工智能的影响反映在两方面:第一, 只要是新技术,一定会有新的大公司出现,如果没有新的大公司出现,那它是不是颠覆性的技术要打个问号。他相信,这个时代一定会有新的大公司出来,就像当年的GE一样;第二, 一定会有大公司烈火重生。在他看来,前几天苹果发布会,不是拿人工智能服务了C端客户,而是用人工智能技术重新构建了公司,从重构它的操作系统开始。
王坚称,互联网时代有草根创业的说法,对很多东西的依赖性比较少。但是人工智能还是有很多依赖性,比如数据,这对大公司会友好些。但是大公司面临的挑战还是存在。有一个因素容易被忽略,就是人。AI对每个部门都会产生影响,很多大企业要求所有部门所有人都拥抱AI,很难。王坚认为,小企业跟大企业的根本差别是,「大企业觉得AI是工具的革命,小企业觉得AI是革命的工具」。大企业也意识到AI是革命的工具,那变化就来了。
大模型的准确率既是问题,也不是问题
MiniMax创始人兼CEO闫俊杰认为大模型准确率是个问题
ChatGPT的发布已有一年半,距离GPT-4的发布也已过去1年。这一年多,国内不少公司都推出了号称「对标」GPT-4的国产模型。但无论GPT4还是国产对标它的模型,都没有真正大规模进入生产力领域提供帮助,而仍然停留于娱乐功能。在如何才能突破这一困境的问题上,MiniMax创始人兼CEO闫俊杰和智谱AI CEO张鹏给出了不同观点。
MiniMax创始人兼CEO闫俊杰认为,大模型目前最核心的问题还是模型错误率较高,比如GPT-4在很多测试指标上可能正确率只有60%、70%,意味着有30%至40%的错误率。大模型的产品多采取对话形式,就因为对话的容错率较高。每一步30%、40%的错误率,多步错误率就更高,由此构建的Agent就无法使用。
闫俊杰认为,降低大模型的错误率,使其从30%至40%降到3%至4%、甚至2%,错误率降低一个数量级,是让AI从辅助人类的工具到独立完成工作的最核心的标志。这需要综合性的解决方案,做合成数据、提高训练效率、研究比Transformer更好的新型网络结构、研究各种新算法、做更好的对齐,所有这些技术加在一起,也许能够让业界半年或者一年之后获得一个错误率个位数的模型。
MiniMax创始人闫俊杰(中)与智谱CEO张鹏(右)。
智谱AI CEO张鹏认为急需解决的问题不是大模型的准确率,而是多模态输入
不过智谱AI CEO张鹏不认为提升正确率是解决大模型应用难的关键。他以上一代AI——人脸识别为例,表示它在准确率指标上已经超过人类水平了,但大家仍然觉得那不是人工智能的终级答案。「准确率是一个方面。一般而言,准确率大多数限定在一些评测集或者任务上的量化评测,但有些东西很难量化,比如人的逻辑性、抽象思考能力。」张鹏说。
他认为,未来大模型需要更像人,首先在信息输入方式上更像人,人在现实世界中解决问题所需要的输入是多模态信息,除了自然语言还有视觉、听觉、触觉,因此突破大模型应用瓶颈也在于先解决好多模态问题。他举例称,用户希望大模型帮忙扫地、做饭、洗衣服,这些任务所需要输入的信息都应该是多模态的。这些方面的能力突破会带来AI的普惠。
自动驾驶:端到端是共识,但市场验证和用户体验问题都还没解决
在「智能驾驶前沿洞见」圆桌对话环节,同济大学汽车学院教授朱西产、嬴彻科技CTO杨睿刚、上海交通大学人工智能学院教授严骏驰、光轮智能创始人兼CEO谢晨等几位专家就端到端模型的未来、可解释性、如何验证等话题展开了讨论。
光轮智能创始人谢晨认为,汽车公司「应该完全拥抱,且一定要最激进地去做端到端,如果一个公司没有做端到端的能力,我认为它不应该存在,它很有可能会被淘汰。」他认为从产品体验角度来看,端到端最关键的点不是安全性,而是它更加像人,这是商业化必经的一个点。而且,端到端技术是符合scaling law(规模定律)的。(注:端到端模型由特斯拉提出并最早实践,它意味着自动驾驶系统需要用一个独立的神经网络去学习驾驶环境并自主「做出决策」,过去,多数——尤其L2级及以下的自动驾驶方案都将感知与决策分开,并且决策是根据工程师预先编写的应对策略库作出的。)
端到端模型面临着不可解释性的问题。不过谢晨认为,人做很多事情也很难完全推理出来,讨论不可解释性更多是因为人类对AI的不信任,特别信任AI以后,可解释性就不再是个问题。同济大学的朱西产教授则持反对意见,他认为「任何时候都要可解释」。
圆桌中得到一致认同的观点是「端到端模型的验证是现阶段的关键问题」。
特斯拉使用「里程覆盖」这一指标反映智驾能力。根据马斯克的说法,当用户里程数达到20亿英里,智驾等级从辅助级变为监督级(注:特斯拉没有使用通用的L1-L5分级,而是按照辅助级、监督级、自动级来划分自动驾驶能力)。
圆桌嘉宾认为,单纯地看「里程覆盖」并不合理,因为光说里程不看场景是没有用的。在没人、没车的地方跑再远,意义也不大,还是得回到场景,建立场景库。「怎样的场景测试才算详尽,不管是学术界还是业界,都在探索之中。」嬴彻科技CTO杨睿刚说。
光轮智能创始人谢晨更加看重车企持续获取数据的能力,而不是里程数或场景数。「我问过特斯拉的内部人员,车辆数达到多大规模时可以感知到数据闭环的能力,他们回答说上百万辆。比如改完算法,晚上推给欧洲的车队,第二天早上就能拿到欧洲用户回环的结果。这才是真正的数据能力。」谢晨称,特斯拉已经过了训练数据的阶段,他们希望拥有把一个corner case(边角案例)泛化成一万个corner case的能力。当你发现一个司机拐弯出现了问题,你不会从逻辑上找原因,而是会让他过更多的弯,再以此判断他是否是一个好司机,这也可以避开可解释性的问题。
特斯拉的FSD(Full Self-Driving,全自动驾驶)还没有正式进入中国市场,杨睿刚和谢晨分享了他们的试驾体验。杨睿刚称,相较于FSDv11,FSDv12对司机的注意力要求大大提升,虽然技术水平在提高,但个人的体验达到某个层面后是下降的。「开V11的时候,在高速上手基本可以随便放,现在(指FSDv12)不看路超过3秒,一定报警。」谢晨也有类似体验,他表示「还是因为特斯拉太自然了,太自然了,我就想脱手」,他对特斯拉FSD未来在中国的渗透率表示乐观(进一步阅读有关特斯拉市场渗透率的评估可移步《FSD将入华,我们算了算它能帮特斯拉多赚多少钱》)。
同济大学汽车学院教授朱西产提到NOA(Navigate on Autopilo,导航辅助驾驶)产品能否大行其道,要看明年欧盟最终颁布的法规允许脱手、脱眼的时间是多少,「如果达到15秒还好,如果是10秒,那买NOA系统的钱就白花了,开传统车的脱手时间也能达到这个水平。」他说。
视频生成:用户对工具没有忠诚度,老平台可能才是受益者
整个WAIC大会期间,有关视频生成的话题在多个分会场中都是话题中心,其中一场以视频生成为主题的论坛邀请了五源资本副总裁石允丰、FancyTech(时代涌现)创始人兼CEO空界、美图集团高级副总裁陈剑毅、井英科技创始人、CEO朱江 、Haiper AI联合创始人兼CEO缪亦舒、Morph AI创始人兼CEO徐怀哲等多位视频生成领域创业公司加入。
作为风险投资人,五源资本副总裁石允丰一直在寻找AI领域的机会。他发现,视频生成技术在过去一年有了很大变化,最初,他认为这一技术可能带来移动互联网时代抖音、快手之后的下一个大流量平台,但现在他认为视频生成技术更大的机会可能在实体世界的应用,如机器人和自动驾驶,这些领域如果能持续预测并建立物理世界的小模型,将解决许多难题;反过来,视频生成技术可能很难对新平台的诞生产生帮助,因为其消费价值完全被老平台(抖音、快手等)捕获了。
视频生成内容目前在公共领域中消费价值还很低。石允丰认为,当前视频生成技术还处于早期阶段,类似于GPT-2刚出现时的情况。在不稳定的技术基础上寻找产品市场契合点(PMF)非常具有挑战性,挑战之一是用户的忠诚度。他发现,Luma AI发布最新模型Dream Machine 4天内获得了1000多万用户,这些用户之前应该都用过Runway和Pika。
石允丰认为,虽然有些应用能迅速吸引用户,但如果没有有效的变现手段,这些用户增长并没有实际意义。相反,相较于高复杂度的应用,图生表情包、鬼畜视频等简单应用短期内看起来更work。
Haiper AI联合创始人兼CEO缪亦舒在分享中同样强调了视频生成对于AI的学习价值。「视频生成不仅仅是技术问题,它还涉及到感知和理解世界的方式。」缪亦舒说,人类学习是多模态的,包括视觉、听觉、阅读和动觉,而视频生成技术是模拟这种多模态学习的一种方式。这一说法与智谱CEO张鹏的观点相似,他们都认为,多模态的输入和学习可以让AI学会更多东西,因为人就是这么学习的,而不是只学习语言或任何一种单一模态。
视频生成的理想很丰满,现实很骨感,FancyTech(时代涌现)创始人兼CEO空界同样对这一结论深有体会。他2019年创立的FancyTech也主打视频和数字人生成,主要服务于To B市场,帮助商家生成基础素材,尤其是替代传统的基础拍摄部分。
空界认为,在国内大模型领域创业有3种视角:其一是做适合本地市场的国产模型;其二是做对标OpenAI的尖端模型,一开始就面向全球市场;最后一种是像FancyTech这样,先务实地通过AI业务先有收入,保证留在牌桌上。「PMF不是一天找到的,刚开始一定要聚焦,留在牌桌上也很重要。」空界说。
一些公司已经将视频生成技术用于短剧、游戏等产业 。以「开发下一代AI娱乐超级应用」的井英科技已于去年推出海外首个AI短剧App——Reel.AI,让用户可以用AI生成短剧。井英科技创始人兼CEO朱江称,他相信AI将重新定义娱乐体验,使视频不仅是观看的对象,还能互动和参与。Reel.AI基于井英科技的自研模型开发,朱江认为,AI的技术升级或者发展是不连续性的,可能突然出现技术成熟的阶段,催生新型的娱乐应用和媒介。因此,对技术的深刻理解和及时调整战术方向对这一代创业者至关重要。
游戏是个内容密集型行业,AI技术可能重塑这一产业从从立项到研发再到面向玩家的各个阶段,盛趣游戏也正在探索将AI技术融入其游戏研发流程,盛趣游戏技术中心AI负责人李锋称, 视频生成技术的确可以帮助设计者更生动地表达和理解游戏概念,不过他们更加想要的不是AI直接生成视频,而是希望它能生成视频背后的数据,这样游戏公司就可以通过游戏已有的渲染技术将数据实现出来,这样能对最终画面更加可控。
包括Runway、Sora在内的视频生成产品为视频创作带来了革命性变化,但是美图集团高级副总裁陈剑毅称,他们发现「普通用户并不关心视频是否由AI生成,他们更看重内容的吸引力」。而AI目前在帮助用户表达情感和记录生活方面的作用还有限。对于普通用户来说,AI视频生成目前的价值在于让一些难以实拍的场景变得易于获取,比如自然现象的模拟,AI可以让创造者低成本获得极光、冰川融化的场景。不过陈剑毅也认为,AI视频生成的颠覆性在短期内可能被高估,从长远来看,它的影响可能被低估。未来,AI视频生成可能让每个人都能在虚拟世界中得到一种形式的永生。更重要的是,AI技术可以帮助更多人克服对镜头的恐惧。
整个论坛中,不少发言者都认为视频生成技术目前仅相当于语言模型的GPT-3甚至GPT-2阶段,新加坡南洋理工大学助理教授刘子纬认为其中一大阻碍是业界还没能找到「视频生成的第一定律」。「语言模型的scaling law可以让业界明确投入多少资本、资源就可以实现多大程度的智能,而多模态领域的scaling law还没找到。」他说。
人形机器人的ChatGPT时刻何时到来?
人形机器人在本次WAIC上赚足了关注度。走进世博展览馆就能看到一个巨大的人形机器人阵列。18台来自不同企业和机构的人形机器人组成「十八金刚」集体迎宾。人形机器人的展区也人头攒动。除了还在柜子里的特斯拉擎天柱Optimus,傅利叶、星动纪元、宇树科技、达闼等多家公司都开放性地展示了各自的人形机器人产品。星动纪元的XBOT双手灵活,能够精准快速地做出夹、捏、握、拧等动作,还会点赞和比耶。
具身智能和人形机器人都是近年才被普及到大众层面的新概念,如果要具备身体的智能,什么样的机器人形态是最优的?所有公司都认同类人形态在数据获取方面更具价值,因为只有像人一样行动,才有可能实现类人等级的智能;而且,最终若要像人一样服务千行百业、实现通用,那么它最好体形也像人。
不过并不是所有厂商目前都将产品做成了完全与人相同的人形,比如北大-银河通用联合实验室,其首款机器人上半身与人类相似,只是双手并非人类那样的五指,而是左吸盘、右抓手,这样方便机器人在商用货架上工作;另外,其机器人的下半身并没有像人那样的双腿,而是做成了可移动的底盘,因为「现在的机器人硬件技术还做不到让机器人在弯腰、蹲、跪的同时,手部还能操作,现在做不到。」北大-银河通用联合实验室主任王鹤解释说,未来等这些问题解决了,他们也会「拥抱」人形。
根据大会官方信息,今年WAIC展览现场共有56款具身智能产品首发首秀,智能机器人42款,其中人形机器人22款。即便都是人形,展会上「十八金刚」的关节模组、自由度以及布置的方案也不一样。宇树科技的首席运营官陈立认为,未来会有一到两种方案脱颖而出,形成一个标准硬件载体。
硬件标准的收敛对于机器人的训练成本密切相关。迈柯博的商务总监魏昌说,成本也是很大的问题。Google曾经花了1700万美元训练了一个厨房场景的大模型数据集,但「我们发现,如果把厨房的台面高度稍微做些更改,花1700万美元训练的数据集和大模型几乎没有用。」
和视频生成一样,具身智能领域的ChatGPT时刻也尚未到来,甚至更为早期。如果发布Demo是一个行业的0到0.1阶段,那0.1到1的过程就是POC(Proof of Concept,概念验证),星动纪元创始人陈建宇认为,目前大部分具身智能公司处于这个阶段。可能明年一部分公司会完成POC验证。
如何让机器把读万卷书和行万里路的知识结合起来还是个难题。目前,业内普遍把具身智能背后的算法分为high-level policy和low-level policy,即所谓的大脑和小脑,大脑负责感知和决策,小脑负责执行。星动纪元的创始人陈建宇认为,一个大小脑融合的端到端架构更有价值,因为他们最近发现,在一个很大的模型上面,如果想把物理层面的数据反馈给大语言模型效果并不好。「这个也是最近英伟达提出来的叫作RLPF(Reinforcement Learning from Physical Feedback,基于物理世界反馈的强化学习)的概念,区别于RLHF(Reinforcement Learning from Human Feedback,基于人类反馈的强化学习)的语言模型,是一个很有意思的问题。」陈建宇说。
银河通用关注人形机器人小脑部分的数据获得,他们发现,现有的很多操作能力都是靠遥操来实现的而非通过自主学习,比如特斯拉的Optimus,他们用40个人的团队遥控人形机器人采集了数据。过去一年,银河通用在合成数据方面投入了不少精力,他们用10亿合成数据训练出来的抓取技能成功地在透明、金属高反光、各种柔性、刚性的物体中泛化。
中美竞争方面,不同于语言模型上美国同行的绝对优势,星动纪元创始人陈建宇认为,中国公司在人形机器人方面与美国的差距不会太大,因为「具身智能=机器人+AI」,美国AI强,但机器人更强调供应链,中国在机器人的供应链上更强,软件出来后,很能就能把软硬件结合做出来。
大厂有哪些新发布?
可灵的「首尾帧」功能也上线了,图像模型可图宣布开源
7月6日,快手在WAIC 2024的论坛活动中发布多项多模态模型的更新。视频生成模型可灵网页端正式上线,模型新增首尾帧控制、镜头控制等功能,目前单次文生视频的时长增加至10秒。此外,快手宣布开源图像生成模型可图。
可灵于今年6月6日上线,是快手自研的视频生成大模型,也是目前国内第一个已上市的类Sora视频生成模型。目前,用户可以通过快手旗下的创作工具「快影」App测试。6月21日的CVPR会议期间,可灵新增了图生视频、视频续写等功能,静态图像可生成5秒视频,视频续写可延伸至约3分钟。
此次更新中,可灵模型上线的新功能包括首尾帧控制和镜头控制。首尾帧控制支持用户上传视频首帧和尾帧图片,模型即可补全视频中间内容;可灵的镜头控制功能则支持任意镜头运动轨迹,目前产品上线了水平运镜 、垂直运镜等6项定制运动控制方式,每一项控制方式的参数都可调节,参数越大,运动幅度则越剧烈。快手高级副总裁盖坤介绍,目前已有超过50万用户申请可灵的内测资格,视频生成数量达700万。
可图是快手今年5月发布的自研图片大模型,参数规模为10亿级,支持文生图和图生图。在本次论坛中,快手宣布可图将正式开源。
快手AI商业产品负责人刘逍称,相比今年1月,快手6月AIGC相关内容的月活跃客户数增长了8倍,月GMV规模提升了64倍,平台AIGC广告收入规模提升了12倍。盖坤称,今年6月,快手AIGC营销素材单日消耗峰值突破2000万,大模型在商业场景中表现出潜力。
商汤科技发布「日日新5o」,对标GPT-4o
7月5日的WAIC 2024上,商汤科技宣布「日日新5.5」体系升级,发布对标GPT-4o的是「日日新5o」。
GPT-4o是OpenAI近年5月发布的多模态模型,可以看用户所看、听用户所听并能与用户实时就所看所听内容交流。
现场演示环节,商汤工作人员和「日日新5o」打招呼,它可自动识别出工作人员佩戴的胸卡带子上的标志,判断出现场就是世界人工智能大会会场,还可以根据指令及时向在场观众问好。不过,与GPT-4o丰富的情绪变化、能够随时切换任何口吻语调相比,「日日新5o」的语气非常平静,没有任何情绪流露。
「日日新5o」现场演示。
功能方面,「日日新5o」能够识别毛绒玩偶的外表和穿戴并给出解读,也可以辨别工作人员画的简笔画兔子,打开书的任意一页,它也能识别图文内容并做总结。不过相比之下,GPT-4o不仅能识别文字、人物,还能通过摄像头理解纸上的数学题,给出解题指导,这对模型的逻辑和推理能力要求更高。
此外,商汤科技还在WAIC期间推出了可控人物视频生成大模型Vimi。用户上传不同角度的人物照片,Vimi可自动生成时长1分钟的视频,视频中人物的表情、肢体动作、头发都可以活动起来。用户可以用Vimi制作表情包、视频素材、数字分身等。目前,Vimi已在商汤科技官网开放预约,未来将完全开放给C端用户。
阿里达摩院推出AI视频创作平台「寻光」
7月5日,阿里达摩院在WAIC 2024的论坛活动上发布一站式视频创作平台「寻光」。寻光是一个针对视频创作者推出的工具性平台,产品目标是创造AI时代的全新视频工作流。寻光将AI能力加入视频创作的全流程,从剧本创作、分镜设计到视频素材编辑,创作者都可在该平台完成。阿里达摩院视频生成负责人陈威华称,「寻光」使得视频编辑过程像做PPT一样简单。寻光平台目前处内测阶段。
面壁智能发布端侧AI应用开发平台Mobile CPM
借助阿里云在WAIC 2024期间举办的论坛,面壁智能发布了一个叫Mobile CPM的套件平台,开发者可以通过这一平台提供的SDK套件「一键开发基于端侧大模型的App」,面壁智能首席科学家 刘知远在发布会中称,该平台接入了「非常多端侧通用模型」。
面壁智能此前已发布多款适用于小型智能设备的端侧小模型。6月11日的苹果开发者大会上,苹果提出Apple Intelligence概念,将未来用户在端侧体验到的AI解决方案划分为端侧和云端两层,其中云端接入GPT等第三方模型,端侧主要使用苹果自研的小模型。
面壁智能CEO李大海对「新皮层」称,未来端侧模型是外部厂商提供还是设备厂商自己做是个开放性问题,目前「大家还在探索」,而作出高品质的端侧模型并不是简单的事,如果设备厂商选择自研,意味着他们也要像国内第一梯队的基础大模型初创公司那样配备「100人起,核心至少也得大几十人」的AI团队。
面壁智能计划在2026年年底推出GPT-4水平的端侧模型,「到那个时候我们对端侧模型和云端模型的工作划分就不会是现在这个状态了。到时候有很多相对难一些的事情也可以在端侧做了。」李大海对「新皮层」说。