图片来源:视觉中国
AI还未改变一切,但一切都在为AI而开始激变。
2023 re:Invent 大会上,亚马逊云科技CEO Adam Selipsky长达两个半小时的演讲,围绕芯片、云、数据库、集成服务多个领域不断强化这一底色。
在数据服务领域,这一现象前所未有地突出。从信息化到数字化,从数字化到智能化,数据要素重要性不断提升的同时,面向数据的服务也从后端走向前台。
信息时代的门面是大型企业管理系统与机房,数字时代的门面是云与SaaS,那么数据与业务的深度锚定,将企业各种各样的数据应用和业务场景捆绑集成在一起,就是AI时代最新的门面。
然而时代的更替,也给用户带来新的挑战与困难,尤其是数据工程师的痛苦与日俱增。面对企业或个人过往长期积累的数据总和,以及当前日均PB级别的数据增长,在一些BI、AI的项目中,ETL环节就会占用30%的项目时间,而70%的ETL构建和维护工作量也成为数据工程师的常驻梦魇。
ETL就像一个黑洞,在无休止吞噬项目资源。
天下苦ETL久矣,亚马逊云科技Zero-ETL打通云上云这里有必要解释一番ETL,即提取、转换、加载(Extract、Transform、Load),将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。ETL也是BI项目重要的一个环节,将直接决定BI项目的成败。
虽然ETL随着数据技术不断迭代发展进入成熟阶段,但也因为其积累足够久远,造成当前ETL工具种类繁多,如Informatica PowerCenter、Microsoft SQL Server Integration Services(SSIS)、IBM InfoSphere DataStage、Apache NiFi等产品各有不同,第一道选型大门就令许多数据工程师不得不反复切换。
千辛万苦选型之后,摆在面前的是ETL任务量随项目复杂度“指数级正相关”。数以千计的ETL任务、调度、排查、维护则成为通往项目成功路上的各种地雷、荆棘。
组织或个人想要在数据中挖掘价值,获得数字化转型的果实,就不得不死磕ETL,正是一种明知山有屎,偏向屎山行的无奈。
如何能够相对轻松解决ETL问题,不仅是数字化转型的痛楚,也是攻克更有效使用AI技术的关键。在时代的推动、客户需求的爆发下,亚马逊云科技在2022年re:Invent全球大会上发布了Zero-ETL服务,正式开创了“零ETL时代”。
亚马逊云科技希望通过Zero-ETL解决方案,把从数据仓库到数据湖的鸿沟填平,令数据工作者用最低的成本,高效完成不同服务间的数据迁移和转换工作,帮助企业实现数据“无感知”、“更自由”的流动能力,从而更好地管理和利用数据。
亚马逊云科技数据库、分析和机器学习副总裁Swami Sivasubramanian表示:“借助Zero-ETL,无论企业和数据的规模有多大,复杂度有多高,通过为客户消除ETL和其它数据迁移任务,助力客户专注于分析数据,面向业务获取新的洞察。”
为此,亚马逊云科技发布两个主要功能:Amazon Aurora与Amazon Redshift的Zero-ETL集成,以及适用于Apache Spark的Amazon Redshift集成。
用户可以在将数据写入Aurora数据库后的几秒钟内对Redshift运行复杂的分析查询。开发人员跳过将数据导入S3,才能在EMR或SageMaker上使用Spark作业的中间数据阶段,就能直连Redshift以创建机器学习应用并处理近乎实时的数据。这极大地减少处理数据并为表示层做好准备所需的时间。
很显然,亚马逊云科技的愿景是希望通过Zero-ETL的方式,把企业或个人从繁杂的基础数据处理事务中解脱出来,令所有人能够将更多的时间和精力聚焦于业务和项目本身,强化客户在业务端的竞争力。
经过一年的锤炼,在2023年亚马逊云科技对Zero-ETL进行了进一步深化。
Adam Selipsky表示:“如今新的Zero-ETL集成可以把事务处理、数据分析集成在一起。在亚马逊云科技不同的云服务之中,通过Zero-ETL能够更好地实现数据在不同服务之间的打通。使工作效率快速而便捷。”
主要表现在5项新的Zero-ETL集成功能,使客户能够快速、轻松地连接和分析数据,而无需构建和管理复杂的提取、转换和加载(ETL)数据管道:Amazon Aurora PostgreSQL、Amazon DynamoDB、Amazon RDS for MySQL与Amazon Redshift数据库的集成,以及Amazon DynamoDB与Amazon OpenSearch服务的Zero-ETL集成,Amazon S3与Amazon OpenSearch服务的Zero-ETL集成。
具体表现为:
Amazon Aurora和Amazon Redshift的Zero-ETL集成,用于实时分析。并且亚马逊云科技云上的服务之间建立了集成,使分析和机器学习变得更容易,而个人无需深入研究ETL的复杂性。
Amazon DynamoDB 与Amazon OpenSearch 服务的Zero-ETL集成,不用自定义代码或者基础设施,就能自动复制和转换DynamoDB数据来执行搜索任务;通过与Amazon Athena和Amazon Redshift的联合查询,可对存储在操作数据库、数据仓库和数据湖中的数据运行查询,从而在不移动数据的情况下提供对多个数据源的洞察力。
Amazon S3与Amazon OpenSearch服务的Zero-ETL集成,在Amazon S3和基于S3的数据湖中查询操作日志的新方法,而无需在服务之间切换。用户可以分析云对象存储中不经常查询的数据,并同时使用OpenSearch Service的操作分析和可视化功能。
Zero-ETL已经连接100多个数据源,包括SaaS、企业内部和其他云,可对所有数据采取行动。如使用AppFlow将数据湖和数据仓库连接到50多个SaaS应用程序;使用Data Wrangler,在Amazon SageMaker上使用来自40多个数据源的数据一键建立模型;利用QuickSight,使用30多个数据源构建交互式仪表盘;还可使用亚马逊云科技 Data Exchange访问到来自300多个数据提供商和3500多个数据产品等。
这就意味着,只要在亚马逊云科技端服务中,客户即可通过Zero-ETL集成无缝将不同数据库、跨多应用的数据用近乎无消耗的方式,应用于如营销、客服、运营等不同的业务场景之中,不必浪费巨大的精力在传统ETL任务上,在理论上可以在ETL环节节省接近60%的项目时间资源,加速客户的数据应用能力成型。
可以预见,Zero-ETL短期将贯通自身各类云服务的数据转换桎梏,但亚马逊云科技更大的数据棋局也已经在与伙伴的深度合作中展开——通过Zero-ETL,实现客户多云数据的应用自如。
从2小时到10秒钟,使用数据有点“easy money”了吧在全球范围内制造业、金融、医疗、科技等多行业的众多世界500强企业,已经通过Zero-ETL实现了卓越的数字化体验。
亚马逊云科技通过对Zero-ETL预览版的客户观察发现,客户在使用Zero-ETL之前,它们Amazon Aurora MySQL数据库每分钟产生数十万个事务,将这些数据从ETL管道移动到Amazon Redshift的过程需要超过2个小时的延迟时间。
但是通过Aurora和Redshift之间的Zero-ETL集成之后,同样的数据仅需要不到10秒的时间就已经出现在Amazon Redshift数据仓库中,几乎可以实现无缝的实时分析。
西门子股份公司专注于工业、基础设施、交通和医疗领域,并与亚马逊云科技在多个项目上有着紧密合作。出于企业战略需要,构建基于生成式AI的会话机器人“小禹”。
小禹回答内容不仅生成速度更快,其对搜索关键词的命中率也更高,整体使用体验远超传统机器人,首周就有超过4000位内部用户参与使用,超过12000个问题被提出并解答,不但解决各业务部门之间需求相似、重复开发的问题,更以云上弹性资源和托管的Amazon OpenSearch Service、Amazon SageMaker等服务节约了系统在运维和扩展方面的投入成本。
实现小禹快速高质量的实时应答,以及知识库运维托管的低成本功臣,就是背后的Zero-ETL。开发人员不需要管理集群或担心生产规模,可以快速推动部署,并且在多部门、多应用的数据仓库提出数据快速复制到Redshift中进行分析响应。
Adobe通过Amazon Redshift集成的Amazon Aurora Zero-ETL功能为不断扩大的Acrobat Sign客户群提供新的洞察和更快的分析能力,并随着他们用量的增加而同步增长,并且还免去了自己团队的日常维护工作。
Infor作为商业云软件和特定行业ERP解决方案的全球领导者,使用Amazon Redshift集成的Amazon Aurora Zero-ETL功能,它将让Amazon Aurora中的交易数据近乎实时地提供给Amazon Redshift,在不影响Aurora用作关系型数据库性能的同时,又减轻整个组织的运营负担。
高盛集团作为全球顶尖的金融机构,通过面向Apache Spark的Amazon Redshift集成功能,数据平台团队以最少的定制化操作就可以访问Amazon Redshift数据,实现零代码ETL令工程师收集完整及时的信息时,让他们更容易专注于完善其工作流。由于用户现在可以轻松访问Amazon Redshift中的最新数据,高盛将能实现更高的应用程序性能和更强的安全性。
通过不同客户对Zero-ETL的实际使用效果来看,新Zero-ETL已经为客户带来两个突出的价值表现:
Zero-ETL开启后对Aurora MySQL的性能几乎无影响。通过sysbench压测发现,在进行ETL前后,CPU利用率、读写IOPS以及网络流量几乎没有发生变化。
Zero-ETL快速进行配置,即可复制除系统表之外所有表的数据,易于使用,没有繁杂的配置整个数据库就可以全部同步到数仓。
Adam Selipsky认为:“数据集成不应该是人工工作的无底洞,你需要一个更好的服务去自动化地、轻松地去连接所有的数据,并且加以使用。”
很显然Zero-ETL已经在客户数字化转型乃至智能化转型中赢得信赖,并且开始让客户感受到ETL这个无底洞将被填平,使用数据前所未有的流畅与简单。
Zero-ETL下一步无论是亚马逊云科技,还是微软、IBM等巨头,都对Zero-ETL寄予厚望。在打造更极致的数据应用体验同时,以更低成本、更高效方式释放数据能量。
在产品侧,云原生的技术和分布式计算架构已经成为共识,以最佳性能提高Zero-ETL的伸缩灵活性,并且基于云原生特点,Zero-ETL工具会越发注重降低开发门槛和跨平台能力,以应对更多样化、多数据源、多云环境下的数据生态系统。
同时Zero-ETL自身会变得更加智能,利用生成式模型等技术自动学习数据关系,从而减少手动配置的需要。并且更加强调实时数据处理能力,支持快速的数据流传输和处理,以满足实时分析的需求。
在市场发展侧,随着客户行业化、场景化需求的加深,不同行业客户对面向特定行业或领域的数据集成、处理等诉求不断涌现。并且随着数据隐私、数据治理合规的愈发严苛,客户业务场景也对敏感数据的脱敏、加密等环节的优化提出了思考方向。
站在生成式AI立面,Zero-ETL与其结合水到渠成。自动生成的数据和自动化数据处理,进一步提高数据集成和处理效率,从数据处理到数据使用大幅提升用户对数据应用的极致体验。
亚马逊云科技提供了完全托管的生成式AI服务Amazon Bedrock,它使用单个API提供来自AI21 Labs、Anthropic等公司的多个大语言模型,并且支持任意模型之间的任意数据交互。这意味着,通过使用Amazon Bedrock平台,企业可以更轻松地实现数据集成和处理,同时利用生成式AI技术自动生成所需的数据,从而更好地利用数据。
Zero-ETL是一条载着亚马逊云科技与客户一同迈入生成式AI时代的“方舟”。Zero-ETL深度地整合生成式人工智能技术,以进一步优化数据集成和处理的效率,有助于提高企业对数据的价值提取能力,促使数据驱动决策更加普及。
结语2023 re:Invent 着实又惊艳了一次。从未有一场盛会既让开发者们澎湃,又让业务专家们热血,不仅是规模的惊艳,也是认知的惊艳——把对数据的认知门槛,又砍掉了一大截。
(本文首发钛媒体APP,编辑 | 杨丽)