大模型之AI语料产业链梳理（附AI语料产业链概念股）

人工智能的发展中，算法、算力和数据是三大关键要素。

其中，数据是大模型竞争关键要素之一，而高质量的庞大语料数据是大模型训练的核心能力。

1、AI语料行业概览

AI语料是指用于训练、测试和优化各种人工智能（AI）系统和模型的文本、语音、图像等数据类型，涵盖多种语言和领域，旨在帮助AI系统学习如何与人类进行交互、如何回答问题、如何执行特定的任务等。

自然语言处理（NLP）：在NLP领域，AI语料用于训练机器学习模型，使其能够理解和生成人类语言。包括文本分类、情感分析、机器翻译、对话系统、问答系统等应用。

语音识别：在语音识别方面，AI语料包含大量的语音数据，用于训练模型将人类语音转换为文本。该

图像识别：AI语料包含大量的图像数据，这些图像数据被用于训练模型识别物体、场景、人脸等。

数据集和基准测试：AI语料也用于创建数据集和基准测试，以评估不同AI系统的性能。

2、AI语料市场格局

当前海外开源语言和多模态数据集，主要发布方包括高校、互联网大公司研究部门、非盈利研究组织以及政府机构、以及免费线上书籍、期刊的长期资源积累、高质量论坛等。

如百度“文心”大模型训练特有数据主要包括万亿级的网页数据，数十亿的搜索数据和图片数据等；阿里“通义”大模型的训练数据主要来自阿里达摩院；腾讯“混元”大模型特有的训练数据主要来自微信公众号，微信搜索等优质数据；华为“盘古”大模型的训练数据出公开数据外，还有 B 端行业数据加持。

3、AI语料数据集

尽管国内数据资源丰富，但由于数据挖掘不足，数据无法自由在市场上流通等现状，优质中文优质数据集仍然稀缺。

数据标注

根据数据类型的不同，数据标注可分为图像标注、语音标注、文本标注、视频标注四大类。

目前我国的数据标注与审核业务的参与者主要包括两类，一是人工智能公司内部的标注部门，二是商务流程外包公司。

主要参与厂商包括 Testin 云测、倍赛、京东众智、百度众测、阿里众包等企业。

其中Testin云测、倍赛采用自建模式，通过自建工厂或基地提供数据标注服务；蚂蚁众包、阿里众包采用众包模式，通过搭建众包平台汇聚标注兼职人员力量；京东众智、百度众测、龙猫数据、数据堂则采用自建+众包的组合模式。

古典风资讯网