ChatGPT在2023年引发的大模型热潮还尚未退去,2024年Sora的横空出世,又给整个行业带来了无比的震撼,也让我们充满了无限畅想,AI和大模型到底能够给未来世界带来何种改变?
麦肯锡的报告预测:到2040年,生成式AI每年可为全球经济带来2.6万亿至4.4万亿美元的增长;IDC 也预测:到 2024 年全球将涌现出超过 5 亿个新应用,这相当于过去 40 年间出现的应用数总和。
这意味着大模型的爆发只是开始,AI产业的未来还有巨大的市场潜力。
但我们回到今天的原点,去审视以当下AI在企业数智化转型中的价值,会发现AI还没有成为真正的生产力,大部分的AI系统运行在创新领域和边缘应用,AI还没有渗透到企业的核心业务当中,成为企业核心业务的有力支撑。
这背后的原因,在于两个字:数据,以及承载数据价值的数据库。
选择向量数据库其实也有无奈从通用大模型,迈向行业大模型之间,存在明显的数据“拦路虎”。
由于大模型对随着文本、图片、视频等多模态、非结构化数据的需求激增,传统预训练的方式将数据“喂”给模型,企业将会面对高昂的成本。同时,大模型存在常见的幻觉问题,时常会“胡言乱语”,这要求支撑模型训练的数据不仅要数量多,质量也要足够高。当然,还有大模型引发的数据安全新挑战,如“数据投毒”等新的攻击方式,让大模型落地行业问题重重。
正因为这些数据问题的出现,让向量数据库成为了大模型的“黄金搭档”。
向量数据库是专门为非结构化数据检索而设计,它将向量数据组成一个立体高维空间,在空间中进行模糊检索,能够快速输出权重最高的答案。所以,在企业环境中部署大语言模型,意味着必须建立向量数据库,并让它们与文档存储库和语言模型实时协同工作,以产生合理的、与上下文相关的准确输出。
所以,甚至有人将向量数据库比作大模型时代重要的数据基础设施。这也让向量数据库借着大模型的“东风”,迅速站上了风口浪尖。
但向量数据库的出现,也为企业带来了很多新的难题:因为企业的核心业务数据通常在关系型数据当中,要利用大模型支撑核心业务,就需要将核心业务数据导出到向量数据库,无形中降低了效率,也增加了数据风险。
同时,企业要部署大模型,就必须要需要招募更多的AI技术人才,来处理向量数据库的技术问题,并且也需要处理多个数据库并存带来的系统复杂性问题。
这对企业来说,实在是无奈之举。利用AI和大模型技术的本质就为了业务的简化和高效,但在底层数据处理上,没有实现简化,却反而变得更加复杂,这就违背了数智化的初衷。
向量数据库未必一定是一个数据库回到向量数据库本身,作为大模型时代必备的数据处理能力,它一定要是一个独立的数据库吗?
甲骨文公司副总裁及中国区董事总经理吴承杨,也提出了这样一个问题:“企业希望向量数据库是一个数据库,还是它只是一个功能呢?”
换句话说,企业希望每一项创新业务都建一个新的系统吗?每一种新的数据,都采用一个独立的数据库吗?企业数字化转型的意义,是不断叠加复杂性,还是追求简单、高效呢?
答案显然是后者。
吴承杨说,“企业都要问自己一个核心问题:数据的问题要在数据层解决,还是在应用层解决?无疑,在数据层解决是最简单的方式,如果都去应用层解决就太复杂了。那么,现在向量数据库出来之后,要不要把它再集成在系统里面,继续增加应用层的复杂度?当然不要。”
所以,甲骨文采取的方式是:将向量化作为融合数据库当中的一个部分,而不是单独的数据库,它可以直接融入原有的数据库,应用层可以直接调用它的能力,这样就进一步简化了数据查询和使用的代价。
这就是甲骨文刚刚发布的Oracle Database 23ai。
简单、高效、安全,让大模型更普惠我们知道,继甲骨文在2023年OCW上推出23c,直到今天新的长版本23ai诞生,这已经很清楚的宣告了未来十年甲骨文数据库都将围绕AI来做技术创新和升级。
甲骨文公司中国区技术咨询部高级总监李珈说,“因为这个新的版本专注于突破性的 AI 技术,因此我们将其命名为 Oracle Database 23ai。”同时,随着23ai的面世,其专注于AI的三个重大升级也逐一浮出水面。
第一是AI for Data,新的数据库把数据的应用在AI的层面上做到了更深入的加持;第二针对应用开发者,无论是无代码开发,还是让应用开发更简洁、更快捷都做出了很多设计;第三,针对关键任务 “Mission Critical”,让关键应用系统也赋予了AI的能力。
如何理解这三个重点带来用户的价值呢?
首先,AI for Data本质上是利用 AI 来简化 Oracle 的数据管理流程、提供 AI 算法等,让应用开发人员能够更容易将 AI 功能添加到数据驱动应用程序,帮助Oracle 数据库的用户或是DBA都能提高工作效率。
例如AI Vector Search,将业务数据和向量数据整合在一起,不需要数据在不同数据库中间来回传导,这就为业务数据的AI化赋予了无限的可能性。
“这意味着开发者即便没有AI方面的经验,只会SQL,也可以全盘搞定AI。”李珈说。这也意味着,企业无需专门的数据科学家/AI 专家也可以实现AI 落地。
其次,让开发更简单,是赋能开发者群体的关键。23ai 引入了许多关键技术来降低开发人员的复杂性,其中最具创新性和最重要的一点是引入了JSON 关系二元性。
李珈表示,“JSON的好处是可以按应用逻辑层次化地做开发,应用和数据叠在一起,开发速度非常快,但是数据冗余存储和更新麻烦,也容易造成数据不一致;而关系型模型则是非常简洁,而且数据的一致性又非常好,过去关系和对象这两个模型到底如何取舍长期困扰着用户。”
而23ai已经把这两个模型进行了结合,开发人员和客户不再需要纠结选择哪一种模型,而可以从JSON关系二元性中获得 JSON 简化开发和关系数据模型的双重优势。
第三,关键任务处理能力一直是甲骨文的优势。而23ai作为融合数据库,它将向量化数据和业务数据整合,不需要业务数据在复杂的数据处理过程中搬来搬去,从而遭遇更多安全挑战,这本身就加强了企业将核心业务AI化的信心。
事实上,甲骨文数据库过去几十年来给予企业客户关键业务的保证,也形成了这些客户敢于利用23ai支撑AI开发和业务创新的底蕴。
客观地说,甲骨文23ai的到来,是让大模型的能力更为泛化,用户无需去寻找第三方厂家做向量数据库,无需担忧核心业务数据如何与向量数据做转化和同步,甚至不用雇佣新的AI科学家,就能够更简单、便捷的走向AI应用的创新。
这是23ai赋予今天这个大模型时代的真正普惠的意义。