2024亚马逊云科技re:Invent
构建全新AI生态
美国当地时间2024年12月2日,2024亚马逊云科技re:Invent全球大会在拉斯维加斯正式拉开帷幕,来自世界各地的超6万名参会者蜂拥而至。在5天时间里,亚马逊云科技带来了一系列足以改变行业发展轨迹的创新。
在本次大会上,亚马逊云科技全方位展示了他们在AI生态这个木桶中的每一项长板能力。
在基础架构层:对计算、存储、数据库全方位革新,推出性能比肩英伟达旗舰的 AI 训练芯片Trainium3及其迄今最强AI服务器Trn2 UltraServer,新一代Amazon SageMaker为生成式AI全生命周期提供一站式服务;在中间层,Amazon Nova发布6款大模型,预告2款大模型,同时Amazon Bedrock迎来三大重要更新;在应用层,Amazon Q developer、Amazon Q Business都进行了一番从头到脚的升级。
据不完全统计,仅前三天,亚马逊云科技就发布了超过30+新品,涵盖推理芯片、AI服务器、大语言模型、生成式AI开发工具等等,让科技爱好者们目不暇接。
而在亲身感受这些密集的产品发布过程中,最吸引我们关注的,无疑是亚马逊在数据库领域的革新。
因为随着AI时代的到来,人们逐渐把关注重点向应用端迁移。但不可否认的是,云计算的底层架构仍然是科技大厂不可忽视的投资领域。
尤其伴随着生成式AI的全面发展,数据本身和数据能力的重要性愈发突出,与此同时,行业里则不断暴露出AI模型开发部署以及数据管理的复杂性问题。
而此次亚马逊云科技在数据库领域的革新,堪称划时代。
亚马逊云科技:
突破分布式架构的“不可能三角”
众所周知,数据已经成为当前企业的核心资产,而在生成式AI时代,数据的重要性更是被提升到了一个新的高度。
在本次re:Invent大会上,亚马逊云科技CEO Matt Garman介绍说,十年前,亚马逊云科技客户中存储数据超过1 PB的还不到100个;如今这一数量增加到几千个,甚至还有几个客户存储的数据超过了1 EB。
当企业的存储数据体量达到EB级别,数据库的复杂性也呈指数级增长,困扰数据库行业半个多世纪的CAP困境成为了必须迈过的绊脚石。
简单来说,CAP理论指的是:一个分布式系统不可能同时满足一致性(Consistency)、可用性(Availability)和分区容错性(Partition Tolerance)这三个基本需求。
举例来看,一个银行APP,账户余额是系统中的重要数据。如果用户转账了100元,那么系统中的所有节点都应该立刻更新,确保用户在任一分行查询,都能看到相同的余额信息。这就要求系统必须保持一致性。
一个社交媒体网站,即使系统的数据库出现部分故障,某些部分的数据可能不是最新的,但你依然可以浏览内容、关注好友,这是可用性的重要意义。
一个分布式数据库,某个区域的节点因为网络故障无法与其他区域的节点通信。这时,系统仍然能够处理请求,并且在网络恢复后,自动进行数据同步。这就是分区容错性。
但是问题在于,这三个要素最多只能同时实现两点,不可能三者兼顾,也就是所谓的“不可能三角”。
而现在,亚马逊则用硬实力告诉我们:小孩子才三选二,成年人的准则是全都要。
此次re:Invent大会上,Matt Garman宣布推出Amazon Aurora DSQL。他表示,有了Amazon Aurora DSQL,客户不需要再做“选择题”,可以既拥有低延迟,还拥有5个9的高可用性,同时更拥有强一致性。
在非关系型数据库方面,亚马逊云科技此次发布了Amazon DynamoDB global tables,支持跨区域同步。
这套方案的推出,成功打破数据库久远的CAP魔咒,帮助用户同时实现:多可用区高可用,跨区域部署及无限扩展,数据强一致性。
打破CAP魔咒,亚马逊究竟是怎么做到的
具体来说,亚马逊云科技推出了两项新的数据库服务,最快的分布式数据库Amazon Aurora DSQL和Amazon DynamoDB global tables(全局表)新功能。
其中,Amazon Aurora DSQL是专为下一代Aurora打造的无服务器分布式SQL的数据库,具有迄今为止最快的读写速度,可以在多个区域内独立扩展计算和存储,实现99.999%的高可用性。
而Amazon DynamoDB是第一个完全托管的无服务器NoSQL数据库,有了全局表新功能后,该数据库现支持多区域强一致性,确保客户的多区域应用程序始终读取最新数据,而无需更改任何应用程序代码。
那么问题来了,亚马逊究竟是如何同时实现低延迟、高可用性,和强一致性的呢?
为了在低延迟的情况下实现多区域强一致性,Aurora DSQL 将事务处理与存储解耦,Aurora DSQL只在提交时检查每个事务,并在提交时并行处理所有区域的所有写入,从而提供一个具有强大一致性和快速写入的多区域数据库。
为了确保每个区域都能以准确的顺序看到每个数据库操作,Aurora DSQL使用了自己的时间同步服务,该服务在每个 EC2实例上添加了硬件参考时钟,将它们同步到与卫星连接的原子钟,从而在世界任何地方提供微秒级的精确时间。
举个最简单的例子:假设我们是一个覆盖全球的大型合唱团,现在需要同时举办一场演唱会,需要每个歌手在特定的时刻唱出相同的音符,保持节奏一致。
在Amazon Aurora DSQL中,每个数据库节点都有一个硬件参考时钟,它通过原子钟来同步时间,保证了数据节点无论在地球的哪个角落,它们都会在几乎相同的时刻进行读写操作。
这相当于给每位歌手匹配了一个全球统一的精确节拍器。
同时,Amazon Aurora DSQL通过将事务处理和存储分开(就像把歌手和伴奏分开)来优化效率,让全球的合唱团成员可以并行地开始唱歌。Amazon Aurora DSQL的数据库在处理事务时,首先会进行一个一致性检查,确保所有的数据库节点都同步到一致的状态。
Amazon DynamoDB的全局表,就像全球合唱团的指挥,自动协调各个区域的数据同步,确保每个城市的合唱团在演唱时都能立即获得最新的歌词和指挥动作,即使某个合唱团在演唱时没有获得最新的指令,他们也会自动从其他城市同步过来,确保他们的表演永远跟其他城市同步。
也正是通过这些技术的协同工作,Amazon Aurora DSQL和Amazon DynamoDB实现了强一致性,即无论你在全球哪个区域访问数据,始终能够看到最新和一致的数据,且这个过程对用户几乎是透明的。
Amazon Aurora DSQL与同样使用原子钟保证一致性的Spanner 进行了比较,对于一个基本的 10 次事务SQL语句,Aurora DSQL的读写吞吐量是其4倍。
就像CTO Warner提到的那样“我们不想让事情变得复杂。我们所做的一切都是为了简化我们的客户所看到的东西。”
这种从底层架构消除复杂化的开发思路,帮助亚马逊实现数据库能力升级,同时给用户带来更简单方便的使用体验。
与此同时,亚马逊在数据能力的进化基础上,还高效地将数据与机器学习模型集成在一块,推出了一个所有数据、分析与AI 需求的中心平台——新一代Amazon SageMaker。
集成化环境、分布式训练、一站式部署
Amazon SageMaker全新进化
Amazon SageMaker发布于2017年底,之前的定位一直是个基于云计算的机器学习服务。
此次Swami博士发布了新一代Amazon SageMaker。从功能上看,Amazon SageMaker AI与客户的数据强相关,提供集合了数据调用、数据分析、大模型训练的一站式服务,定位上发生了重大的变化。
具体来说,有三大层面的更新:
首先,Amazon SageMaker HyperPod flexible training plans:能充分利用云端峰谷资源来节约训练时间和降低成本。
它允许用户根据自己的时间和预算灵活地训练生成式 AI 模型,并为用户提供一份模型训练时间预测表,清晰地展示加速模型训练所需的时间段与可用区域。
其次,Amazon SageMaker HyperPod task governance建立了实时分析和建议引擎,帮助用户开发了一种动态分配计算资源的解决方案,可以最大限度地提升计算资源地利用率,帮助企业在项目开发中将计算的成本降低可达40%。
最后,Amazon SageMaker将很多第三方合作伙伴的工具放入进来,囊括了用户希望使用的第三方常用的AI apps,如comet、deepchecks、fiddler以及LAKERA等。
客户可以利用Amazon SageMaker集成他们常用的第三方应用程序,进一步加速模型开发生命周期,并且能直接享受到亚马逊云科技诸多的技术和功能创新,实现效果的一步到位。
简单总结下,新一代Amazon SageMaker实现了数据和机器学习领域又一次创新的融合,Amazon SageMaker提供的工具可以消除复杂繁重的分析工作,将生成式AI生命周期的所有内容都集中在1个平台。
在大数据和分布式环境中,Amazon SageMaker一站式的集成协作,使得机器学习项目能够快速、准确地处理海量数据并做出预测,特别是在高并发和高效能要求的场景中,创造了用户体验的顶峰。
就像Matt提到的客户范例,“许多客户向我们反馈,他们的分析和AI工作负载越来越多地围绕相同的数据和相同的工作流程进行融合。这正在改变其对分析服务的看法,因为事实证明,他们不再仅仅孤立地使用分析和AI工具,他们正在使用历史分析数据来训练机器学习模型,并且越来越多地将相同的数据纳入其生成式AI应用程序中。“
毕竟数据才是企业的核心资产,才是差异化的竞争力,如果企业能够绝对优势的数据和大模型整合在一个平台上,领先行业的效率优势已经不言而喻。
综上所述,Amazon SageMaker作为一个一站式的数据处理和机器学习平台,通过不断的技术创新和功能扩展,为数据科学家和开发人员提供了更加便捷、高效和强大的机器学习解决方案。
总结
从新一代云服务到更智能的自动化解决方案,和更先进的数据库技术,亚马逊不停地秀肌肉。在本届re:Invent大会上,亚马逊云科技展示了其在云计算、人工智能、大数据和开发者工具等AI生态全领域的水桶状实力。
在这个过程中,亚马逊云科技的理念也愈发深入人心:新产品与技术的更新不应是“拿着锤子找钉子”,而是去繁就简,实用至上。
亚马逊云科技CEO Matt Garman在采访中也专门强调了:“客户之所以选择亚马逊云科技,是因为我们提供了最全面、最优秀的服务。人们之所以依赖我们,是因为我们在安全性和运营性能方面遥遥领先,并且我们帮助他们创新和快速发展。我们必须继续推动这个发展路线图。”
随着2024 亚马逊云科技re:Invent大会逐渐步入尾声,我们有理由相信,新一轮AI生态的技术大演进,即将拉开序幕。
*前述特定亚马逊云科技生成式人工智能相关的服务仅在亚马逊云科技海外区域可用,亚马逊云科技中国仅为帮助您发展海外业务和/或了解行业前沿技术选择推荐该服务。
素材来源官方媒体/网络新闻