NSF资助DataFabric起飞

拥抱科技有未来 2024-08-31 09:58:35

Data Fabric(数据编织)是一种全面的数据管理和集成方法,它使用一组技术组件来管理、集成和处理来自不同数据源的数据,以便组织可以更好地理解和利用这些数据。作为一种企业数据管理模式,适用于那些向大型用户团队提供对管理良好、集成且安全的数据访问的公司。现在,在美国大学和国家实验室工作的科学家们努力打造一种Data Fabric,称为国家科学Data Fabric(NSDF)。

NSDF是由美国国家科学基金会(NSF)资助的一个试点项目,旨在提供一个连接美国全国和世界各地研究机构的Data Fabric。它是两年前由五位研究人员率先发起的,包括Valerio Pascucci(犹他大学)、Michela Taufer(田纳西大学诺克斯维尔分校)、Alex Szalay(约翰霍普金斯大学)、John Allison(密歇根大学安娜堡分校)和Frank Wuerthwein(圣地亚哥超级计算中心)。

“我们作为一群科学家和计算机科学家走到一起,认识到需要为这些科学家设计一种Data Fabric。” Taufer在今年早些时候的一次网络研讨会上说。

NSDF背后的理念是引入“一种新的跨学科方法,用于集成数据传输和访问共享存储、网络、计算和教育资源,从而使数据驱动的科学发现民主化”。“NSDF的愿景是建立一个全球连接的基础设施,在这个基础设施中,科学调查不受极端数据的限制。”

NSDF提供了“一个共享的、模块化的、容器化的数据交付环境”,“填补了我们当前计算基础设施中缺失的中间部分”。NSDF图像显示了通过设备交付的单一领域无关的堆栈,它将核心Data Fabric功能与跨参与站点的各种数据存储、计算和网络资源的连接器混合在一起。

根据NSDF网站,NSDF试点通过几个存储库提供堆栈入口,包括政府文件系统、区域存储、开放科学网格(OSG) StashCache和Origin节点、开放存储网络(OSN)存储POD、国家研究平台(NRP) Fiona、云对象存储和边缘数据流。

NSDF栈本身被分解成几个组件,包括:

用户层,由命令行工具、特定领域应用程序、交互式笔记本(如Jupyter)和仪表板组成;

由数据管理和计算连接组成的三层可编程数据层;数据发现、数据管理、数据处理、数据分析、数据映射和可视化工具;工作流程和自动化;

由CDN内核和插件组成的可扩展内容交付网络,通过SDK、API和微服务公开;

并支持交付核心Data Fabric功能的服务,例如数据目录、安全性、沿袭跟踪、起源、容器和编排。

通过该设备启用NSDF后,参与的用户可以访问本地存储和应用程序。数据通过Internet - 2共享,Internet - 2是连接各个政府和大学站点的高速网络,具有100Mbps的主干,其中一些站点升级到太比特主干。

DoubleCloud是一个国家科学数据民主化联盟(NSDDC),它正在托管一个NSDF目录,用户可以在其中发现和访问数PD的索引科学数据。大约有65家研究机构在DoubleCloud数据目录中列出了他们的数据,包括AWS OpenData、亚利桑那州立大学(ASU)、弗吉尼亚大学、西印度群岛大学(UWI)等。

DoubleCloud在NSDF网站上表示:“我们的服务在文件或对象级别对科学数据进行细粒度索引,为数据分发策略提供信息,并从消费者的角度改善用户体验,目标是实现端到端的数据流优化。”

自推出以来,NSDF已扩展到各种站点和系统,包括亚利桑那大学、印第安纳大学的Jetstream和德克萨斯大学奥斯汀分校的德克萨斯高级计算中心(TACC);德克萨斯大学奥斯汀分校TACC中心;位于德克萨斯州达拉斯和弗吉尼亚州阿什本的IBM云站点;芝加哥大学和TACC;犹他大学、威斯康辛大学麦迪逊分校和克莱姆森大学的云实验室;犹他大学高性能计算中心;AWS各区域的CloudBank;用OSG;各机构的开放储存网络;和CYVERSE。

国家自然科学基金试点项目目前正在支持几个研究项目,包括从南极洲观测深空的冰立方中微子天文台;意大利格兰萨索地下实验室的XenonNT暗物质探测器;以及康奈尔大学的康奈尔高能同步加速器源(CHESS)等项目。

0 阅读:1