湖北日报讯(记者张真真、通讯员胡玥)近日,传神语联网网络科技股份有限公司推出“任度数推分离大模型”,在业内独辟蹊径,采用双网络架构实现数推分离,把推理网络与数据学习网络分开。
凭借这一创新模式,传神语联成为全球大模型领域第一家实现数推分离技术路线的人工智能企业。
数推分离,可将其理解为两个协同联动的大脑:一个是客户数据学习网络大脑,专注于数据的动态管理与迭代训练,为模型持续注入知识;一个是推理网络大脑,作为经大量数据预训练的基础网络,有良好的推理和泛化能力。双网络通过共享嵌入层和中间表示层协同工作,形成类似“主脑”与“辅脑”的高效配合模式,既支持独立训练,也支持联合推理。
数推分离的双网络架构,能够突破常规大模型数推混合一体技术架构的限制,使得推理大脑成熟后,数据大脑还可以持续不断地学习接入的数据,并且不影响推理大脑的能力。因此,对于双网络架构来讲,上下文输入长度不再受限,可将类似1亿字数据乃至更多数据压缩到神经网络中实现深度知识理解。
任度大模型的技术架构无需通过大量参数存储数据来丰富知识,它可依靠数据大脑在客户场景中实时学习数据。这样能大幅降低参数规模,进而减少训练和推理的硬件投入成本。
这种架构能随着客户业务发展产生的新数据持续学习并提升完成数据压缩。在数推分离模式下,更新数据的网络压缩对推理网络影响极小,能广泛适应各种场景,灵活处理数据,训练时间可缩短至分钟级。
双网络大模型架构可以降低训练推理的算力和能耗成本,还能有效避免一体化大模型在客户数据微调训练时出现的基座模型能力退化和泛化能力减弱问题。而且,数据网络学习客户数据无增加算力和专业人员,数据可在客户现场完成训练,学习企业历史数据和新数据,消除企业的数据安全担忧。
任度的数推分离双脑模式在应用中,解决了客户定制大模型的三大难题:客户数据需离场、向量效果差、人才投入高,实现本地实时学习,让客户数据快速转化为“专家”为客户服务。重要的是,客户数据本地训练不传公有云,保障了数据隐私安全。
目前,双网络架构的数推分离大模型已应用于任度“双脑”大模型一体机,其内置的任度大模型有9B和2.1B两种参数。在多项国内外测评中,9B参数模型与数百亿乃至千亿参数大模型对比脱颖而出,以更少的参数实现领先性能。
传神语联创始人何恩培表示,“算法制胜”是具有中国特色的技术路径之一,这符合中国人的聪明智慧,在以大模型为代表的AI时代尤为重要。
湖北日报客户端,关注湖北及天下大事,不仅为用户推送权威的政策解读、新鲜的热点资讯、实用的便民信息,还推出了掌上读报、报料、学习、在线互动等系列特色功能。