NCSA的SEAS团队使科学计算更加高效和易用

拥抱科技有未来 2024-07-06 13:03:31

高性能计算(HPC)通常对研究人员来说是具有挑战性的,因为它需要处理大型数据集、扩展软件和选择最佳用户界面的专业知识。

位于伊利诺伊大学厄巴纳-香槟分校的美国国家超级计算应用中心(NCSA)不仅部署和操作超级计算系统,而且还为研究人员提供这些系统的简化和有效使用。

NCSA的科学与工程应用支持(SEAS)团队帮助研究人员最大限度地利用硬件和软件资源。SEAS团队与研究人员在各个方面进行合作,包括安装Python包,部署人工智能模型,以及为他们的项目选择最佳并行计算引擎。

在最近发表的PNAS论文中描述的一种新的计算框架, SEAS团队使用人工智能模型来简化和加速理解三维蛋白质结构和预测蛋白质构象多样性的过程产生了影响。

该论文由SEAS小组高级研究程序员Roland Haas、美国能源部(DOE)阿贡(Argonne)国家实验室人工智能负责人、芝加哥大学CASE高级科学家Eliu Huerta、伊利诺斯州生物物理学博士生Hyun Park和NCSA研究生研究助理Parth Patel共同撰写。

作为该项目的一部分,研究组开发了旨在提高预测防护结构的人工智能程序AlphaFold2性能的计算工具APACE。APACE旨在提高AlphaFold 2预测蛋白质结构的准确性和稳健性。这项技术突破将帮助生物医学研究人员揭示生命的基本机制,开发新材料,推进生物技术。

为了评估APACHE的效率和性能,研究小组在NCSA的Delta超级计算机上部署了该工具来预测四种范例蛋白的结构。使用分布在300个NVIDIA A100 GPU上的多达300个集成组件,APACE提供的结果比AlphaFold实现快100倍。

该团队后来在阿贡领导计算设施的北极星(Polaris)超级计算机上复制了这项工作,并得到了类似的结果。该项目的成功凸显了这种方法在各种科学学科中应用的潜力,甚至可以让研究人员自动化和加速科学发现。

Huerta说:“如果基础人工智能模型能够被更广泛的科学界发现、获取并准备好使用,它们就有可能改变科学实践。”“该项目展示了如何创建和共享所需的科学数据基础设施,以真正实现尖端人工智能的普及化,并利用现代计算环境最大限度地提高其科学影响力。”

长期以来,生物医学研究人员一直在努力了解蛋白质是如何形成的,这一过程被称为蛋白质折叠。蛋白质是由氨基酸链组成的,它们组装成有结构的形式来执行特定的功能。了解蛋白质折叠可以帮助解释生物过程是如何工作的,以及蛋白质折叠中的错误是如何导致疾病的。

到目前为止,主要的挑战是预测蛋白质折叠,因为它可能是一个极其密集计算的过程,具有复杂的分子相互作用。增加复杂性的是,蛋白质结构可以折叠成大量可能的构象。

研究蛋白质结构的传统方法,如x射线晶体学和低温电镜,已经成功地提供了静态快照,但无法捕捉蛋白质的动态行为。

现在有了APACE,研究人员可以使用一个强大的工具来优化AlphaFold2,使其能够在HPC平台上大规模运行,从而提供前所未有的性能和效率。与传统方法相比,该技术可以研究多蛋白质复合物,以更高的分辨率捕获结果,并在更短的时间内提供结果。

“APACE使药物研究人员能够大大减少筛选潜在候选化合物所需的时间,从而专注于最有希望的物质。通过这种方式,可以测试更多的化合物,并且可以减少开发新药的时间,例如针对特定病毒株量身定制的药物。”

通过促进对数据和计算能力的访问,APACE加速了人工智能模型的计算,从而显著提高了速度,对各个学科都有好处。

根据Huerta的说法,研究小组将继续扩大APACE的用户群,使其更容易访问。该团队还计划专注于克服系统中限制处理速度的剩余瓶颈。此外,该团队希望利用开发的方法在其他基础机器学习模型上增强AlphaFold2,使其可供全球研究人员用于科学进步。

0 阅读:0