ScaleAI估值接近140亿美元，意图打造人工智能数据“代工厂”

Scale AI为OpenAI、Meta和美国国防部等组织提供数据标签和注释软件及服务。本周宣布获得10亿美元融资，估值接近140亿美元，使其在利用生成式人工智能（GenAI）革命方面处于有利地位。

创始人兼首席执行官Alexandr Wang于2016年创立了Scale AI，主要为自动驾驶系统提供标记和注释数据。当时，自动驾驶汽车似乎指日可待，但事实证明，让自动驾驶汽车以安全的方式上路，比最初预期的要困难得多。

在过去的18个月里，随着人们对GenAI的兴趣激增，这家总部位于旧金山的公司看到了对文本数据进行标记和注释的需求激增，这是大型语言模型(LLM)的主要训练数据输入。Scale AI雇佣了一个由全球数百家承包商组成的庞大网络，这些承包商负责为客户的数据进行标记和注释，包括描述文本或对话片段、评估情绪，以及总体上建立数据的“基本真相”，以便将其用于监督机器学习。

除了提供数据标签和注释服务，Scale AI还开发软件，包括一款名为Scale Data Engine（数据引擎）的产品，旨在帮助客户创建自己的人工智能数据，换句话说，创建一个数据代工厂。

该公司表示，Scale数据引擎为“端到端AI生命周期”提供了一个框架。该软件有助于自动收集、管理和标记或注释文本、图像、视频、音频和边缘传感器数据。它为非结构化数据提供数据管理，直接集成来自OpenAI、Cohere、Anthropic和Meta(以及其他)的LLM，管理来自人类反馈(RLHF)工作流的强化学习，以及“红队”模型以确保安全性。

ScaleAI还开发了Scale GenAI平台，该平台被称为“全栈”GenAI产品，可帮助用户优化LLM性能，提供自动模型比较，并帮助用户实现检索增强生成(RAG)，以提高LLM应用程序的质量。

这一切都是为了扩大客户和人工智能最关键资产的能力：他们的数据。

“数据丰富不是自然发生的，它需要把工程、运营和人工智能方面最优秀的人才聚集在一起。”Wang在一份新闻稿中说。“我们的愿景是数据丰富，我们有生产手段，继续扩大前沿LLM的数量级。在未来实现GPT-10时，我们不应该受到数据的限制。”

本周10亿美元的F轮融资巩固了Scale AI在GenAI数据管理这一新兴领域的领导地位。很多公司都急于采用GenAI，但经常发现他们的数据对于LLM的使用准备不足，无论是用于训练新模型、对现有模型进行微调，还是仅仅使用提示和检索增强生成(RAG)技术将数据输入现有的LLM。

本轮融资包括近24家投资者，包括英伟达、Meta、亚马逊，以及英特尔、AMD、思科和ServiceNow的投资部门。138亿美元的估值几乎是2021年估值73亿美元的两倍。据报道，该公司去年的营收为7亿美元，这使该公司走上了首次公开募股(IPO)的轨道。

Scale AI与多家公司合作，包括Roomba真空吸尘器的制造商iRobot、丰田、Nuvo、亚马逊和Salesforce。该公司还于2022年与美国国防部签署了一份价值2.49亿美元的合同，并与美国空军完成了合作。

“作为一个人工智能社区，我们已经用尽了所有简单的数据，互联网数据，现在我们需要转向更复杂的数据。”Wang告诉英国《金融时报》，“数量固然重要，但质量更重要。”

古典风资讯网

ScaleAI估值接近140亿美元，意图打造人工智能数据“代工厂”

拥抱科技有未来