活久见！谁想的这种办法让大模型PK

文｜白鸽

编｜王一粟

“每个大模型看起来都差不多，只能谁便宜先用谁的。但用下来之后，不合适再换，又费钱又费力”，一位AI 招聘公司的创始人对光锥智能抱怨道。

2024年，大模型正在加速走向行业应用。但每一种大模型所擅长的领域都不一样，如何找到最适合自身业务场景的大模型，成为摆在开发者们眼前的难题之一。

“在之前做大模型应用开发过程中，我们一般会先选择一到两个大模型，单独对接研发产品，Demo出来之后，再去评估大模型是否合适。”一位开发者如此对光锥智能说道。

不难看出，这种大模型应用开发方式，耗时耗力，开发成本也非常高昂。

基于此，当前各大厂商都在AI应用开发平台中内置了模型评估和模型选择等功能，比如百度智能云千帆大模型平台、亚马逊云科技的Amazon Bedrock等。

但这些平台的模型评估和选择功能，更适用于企业级开发者。于普通的个人开发者而言，尤其是没有编程基础的用户，很难搞清楚这背后模型评估的逻辑。

那么，有没有一种更加简单、清晰、适合个人开发者的模型评估与选择方式？

字节跳动将自身经典的A/B测试方法论，带到了大模型选择与评估上。

6月12日，由字节跳动AI应用开发平台—扣子（coze.cn）推出了「扣子模型广场」。模型广场主要包含两方面能力：

其一，模型集市。模型广场已经接入多个国内头部大语言模型，包括豆包、通义千问、智谱、MiniMax、Moonshot 、Baichuan等，在创建Bot（智能体）、调试Bot时都可以一键切换。

其二，模型竞技场。通过类似小游戏的模型对战，开发者可以让两个隐藏了模型的Bot一键PK，并根据模型的回答进行投票，投票结束后才会揭秘具体的模型。

一键PK，傻瓜式的操作，为开发者提供了一种相当简单便捷地筛选大模型的方式。

这种PK，类似对大模型进行“A/B测试”，给予大模型真实的人类反馈，能够快速促进大模型的升级迭代，从而为Bot应用开发提供更好的底层技术能力支持。

同时，为了激励开发者使用大模型来开发Bot，扣子联合 Intel 推出 AI 工坊活动，重点覆盖图文创作赛道、实用工具赛道、互动创意赛道三大赛道。

为了能够给开发者提供“开箱即用”的体验，扣子上线了Bot商店、插件商店，甚至开发者最关注的核心工作流也于近期有了商店。

可以看到，2024年已经过半，大模型的能力迭代和智能体的应用落地都在同步快速进展中。

而字节跳动在推荐算法时代赖以生存的“数据驱动”的底层思维，已经悄然在大模型上实现。用大模型竞技场吸引用户反馈，让大模型的调用量提升起来，再带动Bot的开发。后续，再结合字节跳动的内容生态特点，完成商业化闭环。

字节跳动，这家在移动互联网时代的“App工厂”，已经开始进化成“大模型工厂”。

模型竞技小游戏测出大模型的效果

A/B测试的思维，深植于字节跳动的企业文化与基因中。

对于字节跳动组织内的人员来说，上至中高管理层，下至一线产品、运营人员，都有一个普遍共识：A/B测试是一切决策的前提与基础。上线任何策略之前，先跑一遍A/B测试，用数据说话。

比如今日头条、抖音、西瓜等，这些产品的名字并非产品经理或者业务负责人拍脑袋、经验主义的决策结果，而是将不同名称的应用包上架至应用市场之后，通过下载率和分享率来进行定夺，本质上即通过A/B测试的思想，将产品的决策权交给了用户。

产品功能上，抖音弹幕功能上线前，团队应用A/B测试设计一个实验，将没有弹幕的页面设置为对照组，将有弹幕无其他互动功能的页面和有弹幕有其他互动功能的页面分别设为实验组1、2。

通过实验，抖音团队发现弹幕功能在叠加其他互动功能的时候，可以提升互动率，但同时，视频的浏览量和用户留存都有下降。即，弹幕功能不足以转化为长期的比较稳定的用户价值。因此，实验后抖音团队作出的决策是不上线此功能。

而此次扣子推出的模型广场中“模型竞技功能”，也同样延续了A/B测试机制。

模型竞技主要有三种模式：

指定Bot对战，即用户可以选择一个感兴趣的Bot，扣子将随机选取两个匿名模型，基于Bot的Promt、工作流、知识库等能力配置回答用户的问题。主要适用于评测模型在指定细分领域的文本生成、技能和知识调用等能力。

指定Bot对战模式

随机Bot对战，即扣子将从上架Bot中随机选择一个Bot，并随机选择两个匿名模型，基于Bot的Promt、工作流、知识库等能力配置回答用户的问题。主要适用于评测模型在任意业务场景下的文本生成、技能和知识调用等能力。

随机生成一个Bot对战模式纯模型对战，即不指定任何Bot，统随机选择两个模型展开对决，模型回答不受 Promt、工作流等配置的限制和影响，适用于评测模型本身的文本生成等能力。

纯模型对战模式不管是哪一种竞技方式，都需要用户对模型进行提问，然后基于模型回答问题所生成的内容，通过进行AB选择，来评判其生成内容的好坏，进而来评估大模型的能力。在光锥智能体验的过程，点击随机开始后，扣子平台系统会随机选择两个Bot，比如影视分析Bot，这两个Bot背后所对应的是两个不同的大模型产品。页面上会简单介绍两个Bot的使用场景，并一般会在Bot下方提供具体的链接或者与具体使用场景相关的问题，比如抖音视频链接、影视内容等。用户可以直接点击Bot提供的问题，也可以自主进行提问，在提问之后，两个模型开始作答，回答内容完成后，下方会显示此次回答所用时长，以及会继续给出相关的问题。如果仅是简单测试，此时已经可以进行Bot回答内容优劣选择，包括选择A或B，以及两个都好和两个都差。在选择完成后，会显示出两个Bot背后的大模型产品，以及大模型的相关性能。这种简单的“AB选择”的小游戏，能够激发普通人使用大模型竞技场的欲望。用户可以以极低成本，广泛参与模型广场的PK对决，来扣子感受AI的魅力，尤其是没有编程经验的普通人。如果能够再提供一定的奖励机制，就更能带动更多用户参与真实模型反馈。于开发者而言，想要在扣子上搭建一款Bot应用，在搭建前可通过模型广场，进行大模型PK，从而能够更简单、高效、便捷的选出最合适的大模型产品，极大的降低了使用大模型的门槛。而对大模型厂商而言，模型竞技带来了真实的人类反馈，这个数据超级珍贵。比如OpenAI自上线ChatGPT后，自身大模型能力进化速度非常快。在今年春季发布会上，OpenAI的GPT-4o已经向更自然的人机交互迈进了一步，其可接受文本、音频和图像的任意组合作为输入内容，并生成文本、音频和图像的任意组合输出内容。在国内，去年百度文心一言也宣布正式向公众开放服务，用户可在App Store（免费榜第一）、官网下载/体验，无需申请内测资格即可使用，这也就意味着文心一言能够获取更多用户真实的反馈数据。也因此，在扣子平台模型广场上，随着越来越多用户进行模型PK，就会汇聚更多用户真实反馈数据，能够持续不断的推动大模型能力的迭代，来为用户提供更好的体验。因此，在扣子平台上，开发者能够更好的调动大模型能力开发产品，大模型厂商基于真实数据进行产品能力的迭代升级，不断激发平台上应用的创新，形成完整的大模型应用开发生态闭环。也就是说，扣子平台的AI应用开发生态，也形成了良性开发和竞争环境。AI开发平台这么多智能体爆款在哪里？在大模型应用的过程中，Bot（智能体）成为了重点方向之一。从去年开始，各大厂商也都在积极布局Bot（智能体）开发平台。比如 OpenAI的GPT Store、字节跳动的扣子、腾讯云的腾讯元器、百度智能云的千帆AgentBuilder、阿里云的AgentScope多智能体开发平台等。不可否认的是，虽然各家都在做Bot（智能体）开发，但当前并未出现一款真正的爆款应用。究其原因，还是现阶段大模型应用并不能够让用户觉得好用、爱用。“目前AI应用平台虽然很多，但做出来的应用都是浮于表面的，没有解决行业的问题。”银泰百货零售百货数智化产品负责人得壹对光锥智能称。光锥智能在体验各种Bot时，体验并不是很好。首先是很实用的Bot并不多，工具效率类如短视频选题、小红书爆款文案生成器等相对较好，但其他类似甄嬛传十级考试的就比较尝鲜式，体验和小程序差不多，并不能特别突出大模型的优势。另外，即使是儿童百科这样的Bot，回答的内容不够深度，需要有更为标准的指令词，才能获得更精准的答案，但这对于没有编程基础的普通用户而言，并不是一件容易的事情。同时，在企业级的应用中，现阶段也很难将人工智能与人工完全分开，都是需要与人工进行相互配合，才能够更好的为客户提供服务。因此，如何开发一款好用的Bot，能够让更多用户使用它，则成为了大模型应用突围的关键。那么，究竟如何才能够开发出一款真正好用的Bot？极低的大模型使用门槛和成本，是推动用户不断开发各种AI Bot的基础。不过，一位从业者表示，Bot（智能体）开发起来很容易，但对于优化很耗费时间。也就是说，普通人开发一款Bot门槛并不高，但想要让它真正好用，难度却比较大。所以除了大模型的基础能力，各种拓展Bot技能的插件、工作流、图像流、触发器等工具，也是开发一款好用Bot的关键。比如，用户既可以一句话创建个简单的Bot，也可以像拼图一样，把几个功能组装成一个Bot，这种组装的Bot就是工作流。“一位汽车发烧友使用工作流功能添加5个节点，就实现了根据用户需求搜索车型、对比参数，到最终输出图文并茂的购车建议的全部流程，用自己的专业知识解决了身边朋友们选车困扰。”扣子产品经理潘宇扬如此说道。斯坦福大学教授、人工智能著名学者吴恩达指出，AI智能体的工作流程将在今年推动人工智能取得巨大进步，甚至可能超过下一代基础模型。之所以有如此判断，原因在于通过Agent工作流，开发者可以要求LLMs对文档进行多次迭代，对于AI来说，这种迭代工作流产生的结果则会比一次性写作要好得多。吴恩达根据数据发现，GPT-3.5（零样本）的正确率为48.1%，GPT-4（零样本）的正确率更高，为67.0%，其表现相差并不是很大。但通过引入迭代工作流，GPT-3.5正确率高达95.1%。因此，当前工作流正在成为Bot（智能体）开发过程中的关键一环，也备受开发者们关注。针对图像素材的处理，扣子平台还有专门处理素材的图像流，涵盖素材获取、素材编辑、素材导出三大环节，让作图变得更简单。此外，即使同一个Bot，用户的需求也并不完全一样。因此，扣子平台还提供了长期记忆、数据库、文件盒子等功能。基于这些功能，Bot会记住用户说过的关键信息、喜好，甚至连用户看过的文件、偶然冒出的小想法都会细心捕捉。比如在旅游时，如果用户觉得某个地方的葡萄酒不错，当下次想小酌一杯时，Bot就会根据其的口味，推荐适合的那一款。但Bot只了解用户是远远不够的，大模型的知识来源于训练数据，它并不了解最新发生的事情，自然也无法帮用户触达周边的服务。而扣子提供的插件、触发器、知识库等能力，则可以让Bot不断获取新的信息，从而更加了解用户身边的世界。比如每天早上，它会帮你查询天气，规划通勤路线；工作时，它可以帮你分析邮件，提炼要点；下班后，它能为你推荐感兴趣的视频，和你聊天解闷。基于以上能力，普通开发者也能搭建出很强能力的Bot，把自己的专业能力用AI发挥出来。目前，扣子上已经发布了海量Bot，主要应用场景分类为效率工具、商业服务、文本创作、学习教育、代码助手、生活方式、游戏、图像与音视频、角色等。据光锥智能观察，目前热度最高的应用类型，主要是效率工具，游戏、图像与音视频等，毕竟，这些场景天然与生成式AI的落地应用适配，并且是人们日常生活中最常应用的领域。随着大模型时代的到来，互联网时代数字化的需求（衣食住行），或许都可以用AI 重新做一遍。而真正AI Native的应用，或许就诞生其中。构建商业闭环真正走向市场如果不能够将开发出来的Bot实现商业化落地，产生商业价值，也势必不会真正的走向市场。近日，据媒体报道，微软宣布Copilot GPTs将于7月10日起停服，用户已经创建的GPTs将被清空。Copilot GPT Builder允许Copilot Pro用户创建和共享定制的特定任务聊天机器人，类似于微软投资OpenAI的定制GPT Builder和GPT Store。对此，微软给出的官方解释是公司战略调整——正在将GPT的重点转向商业和企业场景，背后原因可能是缺乏商业回报。Copilot GPTs关闭引发了用户不满，批评者质疑此举会切断创新并削减消费者对于产品的信任。

“不少智能体目前都是高开低走，用户都是尝鲜玩一下，后期都吃灰了。而且，能高开的都是极少数。”一位开发者如此对光锥智能说道。那么，如何让智能体真正的用起来？必须要在特定的场景、产生真正可用的价值。业内皆知，字节跳动拥有强大的图文、视频音频生态内容体系，抖音和头条也养活了一批依靠其流量转化的企业和个人用户。图文和音视频，一定是字节跳动在大模型赛道的优势领域。此次由扣子和 Intel 联合推出的主题Bot征集活动扣子 AI 工坊（ Coze AI Factory ），主要涵盖图文创作赛道、实用工具赛道、互动创意赛道三大赛道。而这三大赛道，也将成为字节跳动帮助开发者的Bot应用实现商业价值的试验田。我们可以试想一下，如果抖音、头条能够直接在后台为开发者应用提供接口，就能够让抖音、头条用户直接使用Bot应用。像类似MBTI性格测试的产品，通过在抖音视频中添加链接，吸引用户使用该产品，就可以实现转化和收益。而实用工具赛道，则是社会发展的刚需，比如对于文字工作者来说，类似爆款文案生成器、抖音爆款文案搜集等Bot，能够为其提供更多的能力支持。随着扣子模型广场的推出，以及AI工坊活动持续吸引开发者入驻，字节跳动在大模型赛道中，从技术，到产品，再到市场的闭环，已经逐渐完善起来。现如今，还差的就是一款爆款Bot应用，来推动闭环的完成，我们还需要再给Bot多一些时间。（扣子 AI 工坊（Coze AI Factory）大赛鼓励专业人士及 AI 爱好者们制作创意且使用的 AI Bot ，17万奖金、超多流量扶持、字节offer 等你来拿！扫描下方海报二维码参赛！）