像GPT-4和Gemini这样的预训练大型语言模型(LLM)非常棒,但真正的竞争优势来自于将LLM与私有数据相结合。不幸的是,根据麻省理工科技评论(MIT Technology Review)的一份新报告,企业为GenAI准备数据资产的情况存在问题。
毫无疑问,生成式人工智能(GenAI)已经引起了企业组织的注意,他们渴望使用LLM来构建聊天机器人、数字助理和其他类型的应用程序。在接受麻省理工科技评论调查的高管中,82%的人认为扩展人工智能或GenAI是“首要任务”。这份报告的标题是“高管级领导者的人工智能准备情况”,是由ETL供应商Fivetran委托进行的。
根据调查,企业组织对与GenAI一起使用的数据有很好的了解,调查发现83%的组织已经确定了用于人工智能或GenAI的数据源。
但是,在需要的时候、需要的地方、充分的清理和准备以及以适当的格式将数据交付给GenAI应用程序时,组织准备得如何呢?在不危及隐私和安全的情况下做到这一切?
当然,这才是真正的核心,并不是很多组织都做得很好,至少目前还不是。
将所有数据工具和技术放在同一页面上的困难是巨大的。正如IDC分析师斯Stewart Bond在接受麻省理工科技评论采访时称,IDC最近的一项研究得出的结论是,一般企业“有十几种不同的技术来收集有关其数据的所有情报,同时也有同样多的技术来整合、转换和复制这些情报。”“技术‘债务’是非常真实的。”
麻省理工科技评论在其报告中表示,为集中式数据仓库计划开发的旧数据集成和ETL工具可能不适合新的GenAI用例。这就是为什么调查发现82%的受访技术高管表示他们“正在优先考虑获取数据集成和数据移动解决方案,这些解决方案将在未来继续发挥作用,无论数据战略和合作伙伴发生了其他变化。”
报告发现,获得更好的数据集成和ETL/数据管道工具显然是一个优先事项,但还有其他重要的投资需要进行。64%的受访者表示,数据集成和ETL/管道工具是GenAI投资的两大优先事项之一,35%的受访者认为数据湖是优先事项,而31%的受访者认为数据转换工具是优先事项。与此同时,数据目录和LLM投资仅占7%的份额,矢量数据库和计算层位居中间。
接受调查的技术高管发现,在构建数据基础方面存在许多挑战,包括数据集成和构建数据管道;数据治理和安全;还有数据质量等问题。
在数据集成/数据管道方面,组织最头疼的四大任务包括:管理数据量;将数据从本地迁移到云端;实现实时访问;管理数据的变化。根据这项研究,整合来自不同地区的数据和整合第三方数据也获得了显著的反响。
Fivetran首席执行官George Fraser认为,强大的数据基础是GenAI成功的必要条件。
Fraser在报告中表示:“在你开始雇佣大量数据科学家和启动大量生成式人工智能项目之前,你要确保有一个拥有干净、精心策划的数据的企业数据仓库,它应该支持你所有的传统商业智能和分析工作负载。”“如果组织不从建立强大的数据基础开始,他们的数据科学家就会把时间浪费在基本的数据整合和清洗上。”
当涉及到数据治理、遵从性和报告方面时,调查数据变得更加微妙。
虽然大部分受访者表示,他们为人工智能准备数据的最大挑战是数据治理和安全(44%的受访者提到)和数据集成或管道(45%的受访者提到),但对调查更深入研究揭示了一个有意义的分歧。调查显示,政府和金融服务机构这两个高度保守的领域高度关注安全和治理,而制造业、零售业和其他行业的技术高管对安全和治理的关注相对较低。