这几天,AI公司Scale AI完成了10亿美元融资,估值达到了138 亿美元。这个估值并不算低,甚至接近了大模型明星公司Anthropic今年年初融资时候的估值,更是远远超过了号称“欧洲OpenAI“的Mistral AI。
与Anthropic这种搞大模型的“高大上“科技公司不同,Scale AI却干着很接地气的活儿——数据标注。
说起来,数据标注绝对算得上是AI行业最早的衍生产业了。
早期,为了让AI更好地认识世界,需要人工标注数据投喂给机器学习。到了现在,虽然自动化数据标注取代了人工,但仍然需要需要非常专业的人士来写词条,针对相应的问题和指令,给出符合人类逻辑与表达的高质量的答案。
但这活又苦又累,大公司不愿意花精力做,自然也给了创业公司更多的机会。Scale AI就是这样一步步脱颖而出。2023年,Scale AI公司的年化收入高达 7.5 亿美元,其客户几乎涵盖了美国 AI 各细分赛道的皇冠上的明珠。
明确增量需求加上成熟的商业模式,Scale AI可以说当下AI产业中最具确定性的公司之一。
/ 01 / 数据标注,被低估的风口
如果不是Scale AI138亿美元的估值,很多人可能很难想象数据标注会是一个如此巨大的生意。
都说英伟达是卖铲人,其实数据标注公司也扮演着类似的角色。AI领域公认的三个基本支柱——数据、算法和算力。英伟达是算力的卖铲人,数据标注公司就是数据的卖铲人。
AI要靠书籍、报刊、杂志来学习,但由于模型认识世界的方式与人类不同,所以需要把数据加工成模型看得懂的方式,才能让模型看懂,数据标注就是加工的过程。
数据标注,通俗理解,就是通过分类、画框、标注、注释等对图片、语音、文本、视频等原始的数据进行处理,标记对象的特征,以作为机器学习基础素材。
比如,如果要训练AI识别出图片中的猫,则需要采集大量有关于猫的图片,将其中的关键信息标注出来,供AI识别,在多次识别的过程中让AI形成识别各式各样猫的能力。
数据量越大,需要的人就越多。2007年,计算机科学家李飞飞为了建立ImageNet 数据集,通过亚马逊众包平台雇佣了167个国家共计5万人。由于需要大量人工参与,数据标注一直被视为苦活、累活。
所以,几乎所有的科技大厂都把这种机械化工作交给像第三方公司来做。
一方面,数据标注难度本身并不大,只要是受过一定教育的普通人即可完成,就是对着电脑屏幕根据给定的规则来给数据打上各式各样的标注这一工作,与流水线上工人干的活没什么区别。
另一方面,美国的人力成本很高,雇人来做这个很不划算,需要中间商将这些转移到人力更低的地方。比如,像肯尼亚这样的地方,标注员每小时薪酬只需要1到3美元。
近年来,随着机器学习模型的发展,越来越多的数据标注工作逐渐被计算机取代,人类在其中承担更多的是校审和纠错等工作。
但随着大模型的出现,RLHF(基于人类反馈的强化学习)训练方式又再次让人类所承担的角色变得重要起来:模型需要加入人工打分环节,以保证模型能够给出符合逻辑的高质量答案,能让大模型更好地与人类指令保持一致。
标注数据,就被认为是 ChatGPT 效果优于其他竞争对手的原因之一。在OpenAI 内部,招了几十名 PhDs 来做 RLHF 的标注,Scale作为OpenAI的上游供应商,也招聘了几十名PhDs为OpenAI服务,具体的分工是 Scal负责标注,而OpenAI负责质量检测。
在大模型带动下,数据标注生意开始火热起来。据估计,到2030年这一市场规模将达到171亿美元,并预计从2023年到2030年的复合年增长率为28.9%。在这个未来百亿美元赛道里,Scale AI就是那个最靓的“仔”。
/ 02 / 从数据服务商转变模型服务商
2016年,一个名叫Alex Wang的创业者,看准了数据领域的空白,拉上联合创始人 Lucy Guo创立了 Scale AI,但当时的公司名还叫Scale API。
回顾过去8年的发展历史,Scale AI大致经历了4个阶段:纯人工标注阶段、弱AI标注阶段、转型创新阶段和强AI主导阶段。
早期,Scale AI使用 API 来简化请求工作的过程,并在后端通过同行评审系统对人员进行审查和培训,以确保高质量的输出。在此阶段,公司的标注业务更多地依赖于人工标注。
2018年2月,Scale AI将其网址从Scaleapi.com改为Scale.ai,同时将标注重心转向用于训练自动驾驶的数据标注。在这个阶段,Scale AI开始将人工、自主开发平台和机器学习相结合进行数据标注的核查,来提高其数据标注的速度以及准确性。
AI的加入,让Scale AI形成了良性的飞轮效应:AI算法辅助人类标注员进行标注,人类标注员所标注的图像又会反过来对Scale AI的算法进行训练。这意味着,随着时间的推移和标注数据的提升,Scale AI的算法将会更加准确。
在拥有“自循环”的能力后,Scale AI已不满足于当一个单纯的数据标注公司,他们正在尝试成为以数据标注为基础的应用开发平台。这直接体现在产品线的变化。
2020年8月,Scale AI推出了“数据调试SaaS产品Nucleus,Nucleus允许数据探索、调试错误标签、比较不同版本 ML 模型的准确性指标以及查找失败案例。
产品线延伸背后,是公司定位的变化——Scale AI由单纯的数据处理服务商转变为数据管理、分析和模型搭建服务商。
到了强AI主导阶段,Scale AI进一步提升其AI能力,形成以AI为主导的全流程数据服务。在E轮投资报告中,Scale AI指出:
“在Scale,我们正在构建基础,使组织能够管理整个AI生命周期。无论他们内部拥有AI团队,还是需要完全托管的模型即服务方法,我们都会与客户合作,从头开始制定他们的战略,并确保他们拥有适当的基础设施来系统地交付高性能模型。”
这篇报告意味着Scale AI已经拥有从端到端的解决方案来加速其客户公司的ML(机器学习)开发,换言之,Scale AI目前已可实现从数据获取、数据标注到模型开发,数据应用的全流程服务。
时至今日,除了数据标注外,Scale AI还有管理和评估、自动化和合成产品,比如Document AI和Launch。尽管Scale AI野心很大,但从目前看,Scale AI大部分收入仍然来自数据标注业务。
从定价上看,Scale AI 盈利模式分为两种:
一种是Consumption-base:起价+标注价(标注总数量*每条标注价格);另一种是Enterprise,即依据具体的企业级项目的数据量及服务进行收费。
目前,Scale AI客户包括自动驾驶领域、金融科技公司、政府(国防部、美国空军等)、零售与电商、AR/VR等。在大模型领域,Scale AI与OpenAI、Meta都有合作。
能够接到一众国际巨头的数据标注订单,Scale AI 的收入自然水涨船高。据了解,2023年Scale AI 公司的年化收入高达 7.5 亿美元,而这一数字在一年前还是 2.5 亿美元,一跃成为目前生成式AI领域最赚钱的公司之一。
/ 03 / 总结
在大模型浪潮下,Scale AI的崛起能够带给我们很多不错的启示。
首先,数据标注是一个天然适合创业公司做的事情,大厂不愿意把资源花在上面,又需要一定的运营工作,把美国公司需求转移到肯尼亚等人力低成本地区。
其次,数据标注这事看起来毫无壁垒,但仍然有办法通过技术方式构建效率壁垒。
Scale AI并不是最早进入数据标注的玩家,这个领域竞争也不算小,数据标注赛道其他玩家还有Mighty AI、CloudFactory、LightTag、Alegion 等,但他们都没有把数据标注作为主业而是作为一个业务部门对待。
相较之下,Scale AI则在这条路上走的更加扎实。一方面,通过标注大量数据来训练AI算法,进而提高效率并降低成本。另一方面,一旦行业有新动向 Scale 都能很快捕捉到信号,并快速推出相应的数据标注产品。
回过头来看,Scale AI的竞争优势恰恰来自标注算法迭代后的规模经济效益,既有效率又有质量。
除了规模效应建立的效率壁垒外,资本愿意下注Scale AI的理由是,在大模型竞赛日益激烈的当下,数据标注是一个有明确增量且商业模式成熟的生意,Scale AI的客户几乎涵盖了美国 AI 各细分赛道的皇冠上的明珠。
有了英伟达股价疯涨在前,投资人下注AI”卖铲人“逻辑自然也就有了更大的底气。