AI时代需要怎样的数据空间?来看看北电数智红湖·AI可信数据空间

兴贤说趣事 2024-08-01 18:52:33

2022年底,ChatGPT横空问世,其优秀、自然的语言交互能力给世界带来极大震撼。此后,海内外科技巨头、研究机构开启大模型竞赛,视频、音乐、语言等多模态大模型不断升级,各类AI应用层出不穷,人工智能进入大模型时代,其参数正从百亿级、千亿级迈向万亿级,以数据为核心燃料的AI正加速向前。

据IDC测算,2022-2027年中国数据量规模将由23.88ZB增长至76.6ZB,复合增速达26.3%。然而相较于全球,中国数据开源和市场流通较差、数据挖掘和治理能力滞后,优质的中文数据集依然稀缺,大量非结构化数据无法被算法模型训练所使用。如何能够应用高质量数据集已成为制约人工智能技术发展的关键瓶颈。为数据流转应用创造互信共享环境,已成为当前促进大模型落地和AI产业发展的关键。

然而,当前国内数据价值挖掘存在“数据供不出”“数据流不动”“数据用不好”“数据风险大”等难题,为此需要构建数据可信的生态系统,其中加快建设数据流通、共享、开放环境尤其重要。对于国内相关产业而言,打造数据可信的环境将会为AI产业发展、生态构建提供重要发展土壤。

近期,北电数智正式发布“红湖·可信数据空间”,分享北电数智在人工智能领域先进理念的应用和解决方案的实践。

让数据流动起来

在北电数智“红湖·可信数据空间”沟通会上,北电数智提出:可信数据空间是找到跨域多主体数据流转最优解。

可信数据空间,即人工智能浪潮下利用标准、技术以及广泛接受的数据治理模型来促进数据安全交换、共享流通的基础设施,可保障数据要素能够在安全可信的环境中汇聚、共享、开放和应用,助力数据要素实现高效流通并充分发挥出价值,因此也是让数据真正实现流动的重要依托。

据北电数智AI可信负责人马世韬介绍,“红湖·可信数据空间”基于可信原则构建,是集算力、技术、平台于一体的全栈信创数据流通基础设施和数据安全设施,致力于打造“安全可靠的运行环境”。北电数智希望通过一体化“可信”解决方案,让数据要素充分聚集,让场景得以充分开放,赋能产业,繁荣生态。

让数据安全应用

北电数智全栈信创的“红湖·可信数据空间”,能为人工智能浪潮下促进数据共享流通创造“安全可靠运行环境”。基于此,赛迪网在沟通会上,问到北电数智目前看待数据的困境,及如何构建并推动可信数据空间的发展,从而为产业提供AI时代高质量数据服务,推动大模型在行业落地。

马世韬认为,今天的数据困境部分来源于缺少技术可信的设施。“数据空间不只是物理空间,更重要的是数据上的空间。数据空间在物理上完全可以衍生,没有边界。红湖·可信数据空间想要解决的,正是在数据空间中推动数据有效流动的问题。”

数据流通分为两个层次——数据共享和数据利用上,数据共享解决的是数据所有人的权益,而数据利用考虑的则是数据持有人的利益。

红湖·可信数据空间希望建设一个能对数据链条进行全程跟踪,提供一个更加灵活、便利的数字化基础设施。在可信数据空间中还原和记录链条,让数据从被托管到接入空间、再到数据利用都有授权、留痕、可信。它通过一栈式把多方多源的数据接入、融合,在确保用户隐私的前提之下,让数据为大模型提供有价值的语料。

基于“数据沙箱”的理念,并利用类似“逻辑数仓”等技术,红湖·可信数据空间可对导入、修改和删除数据支持从概念验证到模型或应用开发调优,使数据在不离开企业的情况下实现利用;同时以隐私计算、区块链等技术和机制,通过加密计算,保证数据处理全过程的安全和隐私保护,从而打破政府、企业间的数据孤岛壁垒,实现数据融合,形成更加安全、开放、高效的数据交换生态系统;并依托全链路全周期安全可控,确保数据使用的可追溯性和透明度,从而解决数据的可信度、可控性、可用性和可审计能力难题。

随着数据空间的建立,通过推广更加安全可信、灵活便利的数字基础设施,让数据长期、持久地流通,为国家、社会、经济带来长远价值。北电数智将“算力+数据+模型”贯穿始终,通过全栈AI服务能力,提供从可信算力、可信技术到可信平台与应用,也同时携手生态,共同构建数据价值网络,驱动AI的可信未来。(文/徐培炎)

0 阅读:0