新报告称数据依然是用好GenAI的障碍

像GPT-4和Gemini这样的预训练大型语言模型(LLM)非常棒，但真正的竞争优势来自于将LLM与私有数据相结合。不幸的是，根据麻省理工科技评论(MIT Technology Review)的一份新报告，企业为GenAI准备数据资产的情况存在问题。

毫无疑问，生成式人工智能（GenAI）已经引起了企业组织的注意，他们渴望使用LLM来构建聊天机器人、数字助理和其他类型的应用程序。在接受麻省理工科技评论调查的高管中，82%的人认为扩展人工智能或GenAI是“首要任务”。这份报告的标题是“高管级领导者的人工智能准备情况”，是由ETL供应商Fivetran委托进行的。

根据调查，企业组织对与GenAI一起使用的数据有很好的了解，调查发现83%的组织已经确定了用于人工智能或GenAI的数据源。

但是，在需要的时候、需要的地方、充分的清理和准备以及以适当的格式将数据交付给GenAI应用程序时，组织准备得如何呢?在不危及隐私和安全的情况下做到这一切?

当然，这才是真正的核心，并不是很多组织都做得很好，至少目前还不是。

将所有数据工具和技术放在同一页面上的困难是巨大的。正如IDC分析师斯Stewart Bond在接受麻省理工科技评论采访时称，IDC最近的一项研究得出的结论是，一般企业“有十几种不同的技术来收集有关其数据的所有情报，同时也有同样多的技术来整合、转换和复制这些情报。”“技术‘债务’是非常真实的。”

麻省理工科技评论在其报告中表示，为集中式数据仓库计划开发的旧数据集成和ETL工具可能不适合新的GenAI用例。这就是为什么调查发现82%的受访技术高管表示他们“正在优先考虑获取数据集成和数据移动解决方案，这些解决方案将在未来继续发挥作用，无论数据战略和合作伙伴发生了其他变化。”

报告发现，获得更好的数据集成和ETL/数据管道工具显然是一个优先事项，但还有其他重要的投资需要进行。64%的受访者表示，数据集成和ETL/管道工具是GenAI投资的两大优先事项之一，35%的受访者认为数据湖是优先事项，而31%的受访者认为数据转换工具是优先事项。与此同时，数据目录和LLM投资仅占7%的份额，矢量数据库和计算层位居中间。

接受调查的技术高管发现，在构建数据基础方面存在许多挑战，包括数据集成和构建数据管道；数据治理和安全；还有数据质量等问题。

在数据集成/数据管道方面，组织最头疼的四大任务包括：管理数据量；将数据从本地迁移到云端；实现实时访问；管理数据的变化。根据这项研究，整合来自不同地区的数据和整合第三方数据也获得了显著的反响。

Fivetran首席执行官George Fraser认为，强大的数据基础是GenAI成功的必要条件。

Fraser在报告中表示:“在你开始雇佣大量数据科学家和启动大量生成式人工智能项目之前，你要确保有一个拥有干净、精心策划的数据的企业数据仓库，它应该支持你所有的传统商业智能和分析工作负载。”“如果组织不从建立强大的数据基础开始，他们的数据科学家就会把时间浪费在基本的数据整合和清洗上。”

当涉及到数据治理、遵从性和报告方面时，调查数据变得更加微妙。

虽然大部分受访者表示，他们为人工智能准备数据的最大挑战是数据治理和安全(44%的受访者提到)和数据集成或管道(45%的受访者提到)，但对调查更深入研究揭示了一个有意义的分歧。调查显示，政府和金融服务机构这两个高度保守的领域高度关注安全和治理，而制造业、零售业和其他行业的技术高管对安全和治理的关注相对较低。

古典风资讯网

拥抱科技有未来