前几天刷B站的时候,碰到了一个很抽象很难评的事情——一个科普up主的视频里,夹带了一个AI产品的广告。
接广子本身不是问题,问题是广子和up主的属性实在犯冲——这个AI产品,主打的是帮你分析办公室工位的风水。
科普up主接风水商单,这可能就是所谓的“科学的尽头是玄学”吧。
实际上,在当下这个AI横行的时代,被广泛证明行之有效能赚钱的AI落地方式,恰恰就是看上去很野路子的AI陪伴和AI玄学——虚拟男友/女友,AI看风水、AI算命等等。
有直接用AI满足穿越古代愿望的
有直接设定好了人设和剧情选项直接角色扮演的
有和AI女友斗智斗勇的
最乐子的还得是看风水和算命的,比如我问他梦到武装直升机是什么预兆,他说:直升机象征着向上和自由,武装直升机更强调力量和战斗能力,所以预示着我在现实生活中获得更多的勇气和自信,能够勇敢面对挑战。
为什么AI在这些领域的落地特别有效果?
因为这些领域主打的就是一个“模棱两可”——算命这事儿,和星座一样,从来都是正反看来都对,不信你可以看看别的星座的介绍,你会发现似乎放在自己身上也都说得通。
这是人类历史最悠久的“文字游戏”,而现在的AI,基本也都是“大语言模型”。
都是玩文字游戏的高手。
今天,我们就来聊聊当下AI的落地姿势。
AI落地的矛盾
比较有趣的是,当前人们对于AI落地的看法,往往呈现出两种完全不同的趋势。
在老板们的眼里,AI似乎是一种让公司原地飞升的灵丹妙药——AI来了,成本就降低了,AI来了,效率就有了。似乎好像靠着AI,就能精简公司团队,从而实现降本增效。
而在具体做事的一线员工看来,AI却并不像宣传中那样强大,有时候与其说是“人工智能”,不如说是“人工智障”——压根儿不具备独立完成整体任务的能力,能在某些环节里帮上忙就已经烧高香了。
这种矛盾的来源是人们对于当前AI的一种判断——我们似乎高估了当下AI的能力,总认为大模型带来的技术飞跃足够强大,可以靠着某种“杀手应用”来解决普及和落地的问题。
很难说这种观念是对是错,因为长期来看,确实有很大可能会这样发展下去。但短期来看,这种“杀手应用”并不现实。
当前的AI并不足以满足这样的期待。
以央视新闻曾经报道过的一个案例来说,上海的一家游戏公司从2022年开始就在使用人工智能技术辅助游戏开发,在游戏角色的设计环节,使用人工智能之后,开发周期大大缩减。例如某款休闲类游戏中,可能设计1000多个图标,如果是人工绘制,每一个图标的成本400元左右,1000多个图标将会耗时一个多月,成本高达60万元。但在AI辅助后,基本上一个人两个星期就能完成,只需要两三万元的成本。
从这案例可以看出,AI要做的并不是直接取代人类,或者直接帮助人类完成所有工作。更多,只是去帮助加速某些环节(比如设计环节),从而相比以前减少成本。
还是我们之前文章里表达过的观点:当下的AI,都是大语言模型,本质上都是在“猜字谜”——AI确实能理解我说的每一个字,也确实能够给出看上去还挺靠谱的回答,但这一切的背后,不是AI真的理解了这个世界的规律,而是 AI觉得这样的回答更容易被人类接受罢了。
尤其是当你要求AI完成一个相对完整的任务,这种马脚就会立刻显露出来——当下的AI根本不知道事物的规律,只是在根据训练的数据,做出一些似乎看上去还挺靠谱的回答而已。
以Openai的Sora模型生成的视频来说,在早期的一段宣传视频中,AI被要求生成一段建筑工地的移轴画面,整体看上去似乎还不错,但如果仔细看,你会发现,视频里的叉车根本不理会地面上堆放的建筑材料,直接开了上去,而且碰到人之后原地来了个漂移。
这就是一个典型的AI生成作品的问题:它只给你提供一个看似靠谱的东西,因为它并不能从原理上知道该怎么做。
因此,如果要评价当下AI带给我们的实际体验,大概率会是这样的一种感觉:如果我们需要走100公里的路,当前的AI并不能让我们在转瞬间走完这100公里,但却可以让其中的10公里的路段变得更好走。
产业AI和大众AI
从另一个角度来看的话,则是成本和收益的问题。
本轮的AI浪潮,核心其实是LLM,即语言大模型——参数量数十亿乃至上百亿,需要专门的GPU集群,训练成本极高——真正能跑出来的产品,无一例外,都是用真金白银堆砌起来的。
但AI显然是要普及的,封闭、资本密集的大模型并不符合这样的大趋势。于是乎,开源的小模型成为了新的热点——大模型的体量,使得它在手机、物联网设备等小型终端上部署起来颇为麻烦,但小模型则不同。尤其是那些要求快速反应的领域,比如语音和图像的识别处理,小模型的处理效率也会更快——某种程度上说,小模型相当于是大模型的精华版。
以openai的GPT-4o mini来说,成本下降的情况下,质量反而更高,这就是数据集和训练方式改变后带来的突破。
当前AI的这种特性,也影响了产业AI和大众AI的发展方向——因为当下的AI大模型,哪怕开发成本高昂、功能强大,其实也不足以做到0-100都给我高质量包圆,所以AI要么就是专精于某一个环节,帮助产业里的某个环节提速,即产业AI;要么就是直接娱乐化,也不追求什么质量,差不多能用就行,即通常的大众AI。
大众AI的例子很多,国外的有chatgpt,midjourney等,国内有文心一言、豆包等,
这些AI产品的相似性是:基本都是黑盒模式,你根本不知道它到底是怎么操作的,在具体使用的时候,往往是需要多次生成,然后在诸多结果里选择最优的那个。
以Chat-gpt这样的大语言模型来说,它的工作原理就是去“猜字谜”——首先是数据收集与准备工作。所需的数据来源广泛,包括小说、新闻报道,甚至涵盖视频和音频等多种形式。
除此之外,还需构建一个庞大且多样化的语料库,以便模型进行深入学习。为提高学习效率,应对这些原始数据进行严格的标准化处理,确保模型能够更为高效地摄取和处理信息。
随后,在构建大语言模型的过程中,基于Transformer架构成为首选。尽管Transformer架构在技术层面颇为复杂,但从本质上讲,它能够模拟人类语言的语法规则,进而实现自然且流畅的内容生成,相当于是让AI掌握的基本的人类语法知识——所以虽然AI给出的东西未必好用,但肯定不会胡言乱语——在这方面,Transformer架构可以被视作AI的语言中枢及表达工具。
而之后的训练,则需要MLM技术的干预——在训练环节,随机遮挡住输入文本里的一些词汇,不需要人工介入,模型就会自动利用剩下的信息去分析判断,在这个过程里,大模型会学习到词汇之间的关系,知道如何去理解一句话和一段话的上下文关系,从而提高它对于自然语言的驾驭能力。
像是图片生成类的AI其实也都是类似的原理,只不过把遮盖起来的东西从文字变成了图像。
而专业的AI则相反,更加精准,不需要多次生成结果选最优。在这个领域,国外有Adobe firefly和comic maker ai,国内有钉钉AI。
以adobe firefly来说,它相当于是让传统的Photoshop软件有了AI功能,用户不再需要像以前那样手动在十几个菜单里选择不同的选项进行操作,而是可以圈起来要修改的部分,直接用自然语言命令AI完成特定的操作。而钉钉的AI则有各种智能助手功能——例如“AI工单助理”,可以自动抓取钉钉群里的消息,分析其中表达的诉求,根据预先学习的企业知识,自动生成工单并派单给有关责任人。
不论是firefly,还是钉钉的工单助理,说到底,其实是先得有photoshop和钉钉这样的工具类软件,而后才能在此基础上进行AI升级,从而开发出相关的AI产品——这类专业AI产品仅能在本体软件的范围内活动,但却能更精准、更高效,不需要像大众AI产品那样多次生成选最好。
结尾:实用主义的AI
综上所述,我们可以清晰地看到,当下的AI正处在一个充满矛盾与机遇的发展阶段。它既能在某些特定领域大放异彩,为我们带来前所未有的便捷与效率,又时常会在更广泛的任务面前显得捉襟见肘,暴露出其能力的局限性。
没办法,技术的发展从来不是一蹴而就的,从来都是螺旋上升的——现在是2024年,5年前的2019年,我们之中绝大多数人不会意识到AI会发展成现在这个样子。
当下的AI大模型等产品,虽然还有这样或者那样的问题,但技术的发展是相当迅速的,AI大模型的进化是比摩尔定律的速度更吓人的——尤其是在当下,在强化学习技术越来越成熟的情况下,AI将不再只是猜字谜,而是真正开始学习、认识这个世界,具备独立思考的能力。