是等待泡沫破碎,还是从实际场景应用中寻找新生?
这个天命之问终于轮到了大模型。
全球科技公司每年投到大模型基础设施的花费约2000亿美元,但最多只能产生750亿美元的收入……
然而这一问题似乎在中国正接近得到一个答案。
“你好,请帮我制作一个长10秒左右的产品宣传视频,中秋节氛围,国画风,屏幕比例为4:3……”
想象一下:
节前一个星期,老板要求你一天内拿出一套完整的产品推广视频方案。接到任务的你无需召集团队开会、讨论、加班、熬夜,而是气定神闲地唤醒电脑上的人工智能,对它讲出开头那句话,视频方案便自动生成。拿给老板。
这样的“美梦”,马上就要成真了。
9月24日,2024火山引擎AI创新巡展深圳站上,新发布的豆包·视频生成模型,给所有写视频脚本写的秃头的打工人送来一阵春风。新模型精准的语义理解能力、大师级别的镜头美学和强大运镜,以及兼具自由个性化的多风格多比例选择,不仅拯救了你的发际线,还让“AI打工,我领工资”的梦想照进了现实。
当然,视频生成模型是这次AI创新巡展深圳站的重头戏,但绝不是独角戏。加上豆包·同声传译模型、豆包·音乐模型,以及豆包·语音合成模型和豆包·文生图模型的两大升级,火山引擎正在把AI“种”进企业业务经营的具体场景里。
国产大模型躬身入局,而且正在这条路上越走越远。
新模型,新的生意可能性
当今人工智能取得的所有成就,都可以回溯到那个激荡人类半个多世纪的灵魂一问:1950年,图灵在论文《计算机器与智能》中抛出一个本源性问题——机器能思考吗?
此后70余年,大大小小的科技公司都在努力证明这一点。
这已经无需再辩驳。今天,中国的科技企业对于机器的思考能力能如何作用于我们的工作和事业,表现出浓厚的兴趣。
深圳站新发布的三大模型和两大更新,基本代表了火山引擎的思考。
首先,三个新模型告诉我们,寻找场景绝不能拍脑袋。
1. 视频生成,营销策划人的福报来了
现实中,我们接触过很多理工直男的创业者,好些年前,他们经常会来倾诉:“我们想做宣传,想对外拓展,但我们请不起明星,也不知道怎么在媒体上投放广告,怎么办?”
换做人工智能还没流行起来的那几年,我会说:“请不起明星代言有什么办法,你们一年赚的还不够大明星的一次出场费”。
不过,放现在这根本不是问题,“要什么代言人,自己捏不香吗?”
最新出炉的视频生成模型,有高度准确的语义理解能力。形象上,综合“迪幂孟扎”,绝不耍大牌,即使是想要“五彩斑斓的黑”这种地狱级要求,它都能做到“有求必应”。
当年GPT文生图模型让世界惊掉眼球,但在新的视频生成模型面前完全不够看,这么说吧,你下指令,视频生成模型可以让你享受到电影的流畅,更可以实现动作的连续多拍和与多个主体交互。
简单来说,用视频生成模型生成的“代言人”,不再只是会点头微笑的“美丽花瓶”,而是能跟随指令,完成眼神切换、低头皱眉……动作连贯、逻辑自洽,那感觉就好像你在监视器中,指挥准影帝们去演绎电影剧本。
要做视频,除了画面连续,还得要懂镜头美学。视频生成模型的作品,镜头切换时毫无痕迹,还可以搭配上各种运镜且不会手抖,以及大师级的色彩和光影布局,不说达到学院派的专业水平,但也超过了一般草台班子的水准。
看到这里,我的第一反应是,电商人,福报来了;广告公司,该颤抖了。
今天的电商,既要卷产品,卷价格,卷服务,还得卷营销。一年之内,大大小小的促销活动十几二十个,每次大促都需要大量关于商品展示和配合营销节点的视频素材,而且各个电商平台的视频素材尺寸不同。
往往一次大促就要整个营销团队至少一周的时间准备,制作和人力成本都是大头开支。但是,文生视频作为新的AI视频制作工具,不仅能提质增效,还能在确认版权合规的前提下,实现各种天马行空的创意落地。
而我们要做的,就是坐在电脑面前,组织好语言,输入指令,花几分钟喝杯茶,等待AI大作。
妥妥的四两拨千斤啊。
2. 同声传译,几百万的生意怎么谈得这么轻松
今天的企业,信奉的信条之一是:不出海,就出局。
这毋庸置疑,海外的广阔市场等着中国老板们去大浪淘金。但前提是,各位老板们,咱会说外语不?
没关系,不会说外语,不是老板的错,老板永远没错。针对出海不懂英语的问题,中国老板有自己的解决思路:第一,谈判、参展的时候找个日薪5000的专业同传;第二,买个同传软件APP;第三,请个月薪3000的英专生做跨境电商的线上直播。
这已经覆盖了大量需要双语交流的业务场景了。但问题是,日薪5000的专业同传太贵,月薪3000的英专生只能卖货,市面上传统的同传软件要先进行自动语言识别,再进行机器翻译,很容易就会犯错。而且传统同传系统因为要做到低延时,通常只用了性能较差的小模型,在更复杂多变的商业场景里显得有点鸡肋。
不过,要是我说,同声传译模型已经能做到高质量实时翻译了,老板们惊不惊喜,意不意外?
相比传统同传软件,同声传译模型几乎可以边说边译,实现全方位无死角的跨国热聊,老板们不用再面对等待机器翻译的冷场和尴尬时刻了。
另外,同声传译模型不仅能用在跨国商业谈判和贸易沟通,这种需要讨价还价的场景里,在门槛更高的法律和教育场景,同声传译模型甚至超越人类同传水平。相当于花了点小钱,得到了一个精通多国语言、会砍价、情商高、懂法律、金融等专业知识的复合型人才。
更绝的是,同声传译模型还支持跨语言同音色翻译。无论是性感磁性嗓,还是霸气御姐音,都能一比一还原。而且,只还原音色,不还原口音。所以,各位老板们不必担心自己的中式英语会在海外客户面前露怯,对方听到的,就是纯正欧美腔。
在海外消费者眼里,这纯纯加分项啊。
3. 音乐制作,谁还登不上格莱美了
你有没有过这种经历:
明明在发呆,突然脑子里就莫名出现一阵旋律,但奈何自己不是专业制作人,想唱唱不出来,想记也记不下来,白白看着灵感一闪而过。
如果你也经历过这种遗憾,那么请注意,接下来有一个好消息。
新公布的音乐模型,你只需要简单写一句或者几句话,或者上传一张图片,就可以轻松生成一首包含旋律、歌词和演唱的1分钟高品质音乐作品。
什么?你说你想要朋克和摇滚、嘻哈都来一遍?
那也没问题。音乐模型支持10余种不同的风格和情绪,只要你敢写,没有它不敢唱的。
当然,这么专业的工具要是只用来闲暇时捕捉灵感,倒有些大材小用。在更广阔的音乐创作和广告营销场景,音乐模型有更大用武之地。
比如,企业需要迎合国庆节点策划一首宣传歌曲,就可以使用音乐模型,直接上传图片或者几句话,就可以生成一首和内容匹配的歌曲。演唱上还能根据歌曲风格匹配适合的音色演唱,真实呈现气口和真假音转换,简直是豆包版的初音未来。
现在好了,企业不仅不需要请明星代言人了,连宣传片里的ost也用上AI演唱了,实力压根不输歌坛天王天后,又省了一笔巨款。
三个更,突破落地难
此次深圳巡展,的确能让我们直接感受到中国大模型到底有多卷。
不过,豆包大模型家族提到的三个“更”——更强模型,更低价格,更易落地,可不只是卷那么简单,它试图让AI早点摆脱炫技阶段,找到足够多的场景,落地生根,和企业一起成长。
先说效果。
加上此次新发布的三个新模型,豆包大模型家族拥有了更多重量级选手,能适配多种业务场景,既可以一键帮打工人做PPT,又能自动帮设计师改图、P图,解放双手。
但今天的模型竞赛不是摊大饼式的无限扩张,豆包不仅模型家族更丰富,模型性能也进化得更强。
在刚刚结束的AI创新巡展深圳站上,火山引擎公布了豆包通用模型pro的最新成绩,数据显示升级后的豆包大模型综合能力提升25%,数学能力提升36%、专业知识提升35%,模型效果领先行业。
用户侧方面,据官方消息,目前豆包大模型日均Tokens使用量超过1.3万亿,日均生成图片5000万张,日均处理语音85万小时,堪称大模型届的顶流。
数据只是表象,我们来看看,“更强”的豆包大模型战力究竟如何?
以新升级的两款模型,语音合成模型和文生图模型为例,语音合成模型打破了语音合成的音色数量限制,支持数百种音色自由DIY,以前我们感叹配音演员的天生好嗓子,现在想要什么样的角色配音,都可以自己调试。
文生图模型则提升了模型的推理效率和整体性能,对数量、属性、大小、高矮胖瘦和运动静止状态有更深刻的理解;还提高了大模型的美学素养,你想象中玄幻小说里精彩的武打场面和各种创意设计都能被大模型还原出来。
那么这些更强模型要怎么落到企业实践里去呢?创维酷开已经吃到了第一批螃蟹。
作为OTT行业头部企业,酷开科技通过AI生产的海量短视频矩阵解决了短视频带长视频的推荐需求,大幅提升了长视频的推荐效果。全新酷开AIOS融合豆包大模型还可以根据不同用户喜好,通过全流程AI精准推荐,生成千人千面的智能桌面,让用户打开电视的这一刻,每一个页面都是按照个人喜好和习惯专属定制的。
而且对企业来说,AI生成的短视频,可以保证稳定的视频生产质量,提高分发效率的同时还提升了用户的点击转化率。再配合上豆包的语音模型,既能精准识别,又能准确回复,听得懂各地方言,也听得懂小孩不成熟的语言体系,解决了老人和小孩不会用遥控器的问题,同时通过语音还能生成AI故事绘本给小孩讲故事,让大模型改变了日常生活。
另一方面,模型战力变强了,价格却还是那个价格。主打的就是甭管别人怎么看,我说只卖一块就一块。
很长一段时间里,企业不用大模型的原因除了不会用、不敢用,还有一个不舍得用。成本太高,用量太大,回本周期太长,彼时的大模型对企业来说实在不是一笔划算的投入。
但当大模型价格战开打后,火山引擎成为国内第一家把成本降到每千Tokens低于一厘钱的企业,带动了一大批企业接入大模型,激活了众多AI应用。
而随着AI应用的爆发和市场培育的成熟度提高,大模型价格已经不再是妨碍企业创新的阻力了,AI应用上量的关键又变回了模型性能。
换句话说,市场发展到中间阶段,大模型企业的竞争赛点成为了,谁能在更低价格的基础上提供更强性能的模型,不仅要让企业用得起,还得用得好大模型。
这一市场情况下,豆包大模型为客户提供的业内最高标准的初始TPM(每分钟Tokens)和RPM(每分钟请求数),每分钟处理Tokens的最高限额达到同梯队模型的数倍。好比你用低了一半多的电价,买到了几倍多的电力资源。
而超低价和超强性能叠加,意味着使用豆包大模型的客户会越来越多。而当客户业务体量增大,流量瞬时突增,很容易造成使用中断或算力紧缺。这个时候,火山引擎旗下的大模型服务平台,火山方舟可以提供充沛算力资源和极致调度能力,50-120s内完成数千卡GPU部署,90s内实现离在线潮汐调度,支持企业业务在流量高峰期也能稳定、流畅运行,避免因业务中断损失企业利益。
也正是有火山方舟、扣子专业版、HiAgent和AI全栈云,这些技术产品工具的保驾护航,火山引擎才打通了AI落地企业的最后一公里。
在更强性能和更低价格的“诱惑”下,企业离用上大模型还差最后一个关键问题——要怎么用?
对大量企业而言,在落地大模型应用之前都会陷入这些困境:企业没有AI专业人才,我要不要招一个?用别人的大模型,我的数据不会泄露吗?同行都有自己的专属应用,我要怎么也开发一个……
这些问题在今天来看,都能从火山引擎提供的技术工具里找到答案,也已经有企业吃到了火山引擎的外溢红利。
比如,在火山引擎消费行业团队和海尔卡泰驰合作的智能寻车器项目上,火山引擎帮助卡泰驰着重梳理了AI场景并规划AI整体布局,联合海尔集团IT部门共同搭建AI应用平台,落地了多个智能体应用。以AI寻车器为例,以前消费者购车最少要去不同4S店线下比价、线下咨询,但AI寻车器可以依据用户需求筛选出符合预算、品牌、型号、上牌时间等条件的车辆,降低用户选车门槛,提升交易效率与选车体验。
对很多企业来说,他们会担心自己没有专业AI人才,就算买来大模型也是中看不中用。但其实不管是火山引擎和海尔卡泰驰的AI合作,还是豆包大模型在海底捞上的落地,企业从AI门外汉到实际受益人,都有火山引擎的手把手教学。
而且火山引擎旗下的HiAgent允许企业用自然语言来开发自己的模型应用,只要聊聊天,说清楚需求,就能搭建起一个智能体,都不需要写代码,甚至不需要教学,就可以拿来即用。
再比如,有的企业会担心把机密数据放在别人的大模型上训练,信息安全得不到保障,也担心自己的业务量太大,算力资源跟不上,要购买大量算力,大模型看上去便宜,实际长期投入的代价太大。
但火山引擎找到了解决这些后顾之忧的捷径。
一方面,火山引擎持续升级全周期安全可信方案,构建起大模型的安全“堡垒”。
为了打消企业害怕自己的身份被盗号或者数据遭泄露的顾虑,火山引擎施行了更严格的身份认证、更好的环境隔离、数据双层加密、用户对话自动销毁以及向客户开放日志审查五道安全锁,把“无痕上网”和“动态仅自己可见”从浏览器和朋友圈搬到了大模型上来。
另一方面,火山引擎AI全栈云可以提供超高性能网络,支持3.2Tbps RDMA网络,时延优化最高达75%,文件存储vePFS支持2TB/s吞吐并行存储和3000万IOPS,而且GPU的利用率提升到100%+,不仅可以保障计算资源稳定运行,还能让每一块算力芯片都物尽其用,绝不浪费一点,绝不多花一分钱。
毕竟要让企业用更低的价格用上更强的模型,有几把便携易用的“工具铲”还是必不可少的。
AI时代,未完待续
中国有句老话,叫“要想富先修路”。
大基建时代,高铁、高速公路年年创纪录,中国人架桥铺路的信念就来自于,财富的流向会随着路的方向延展,直至走进深山、走上高原,最后无数人的命运将被一条路改变。
AI时代,大模型和人工智能就是改变命运的那条路。谁先开放、先拥抱AI,谁就更先走近未来的财富源泉。因为技术革命的最大受益者,或许不是技术发明家,但一定是最先用上新技术的人。
但就像高铁技术一度被德国西门子卡脖子、年年亏钱的高速公路一样,在AI时代修一条路同样面临新挑战:如何找到技术与实际应用环环相扣的支点,这关系到AI和大模型的潜力能释放到什么程度。
这不是一条容易的路。关于AI的开发,国际上有一个专门收录已经死亡或者停止运行项目的网站叫“AI坟墓”,截至2024年6月收录数已经达到738个,其中不乏明星大厂的。
而要找到撬动技术与应用相向而行的支点,需要企业的主动开放,更需要科技企业的积极探索和不断实践。
在这一条未完待续的AI公路上,火山引擎手握重重利器,走在了前面。