NSF资助DataFabric起飞

Data Fabric（数据编织）是一种全面的数据管理和集成方法，它使用一组技术组件来管理、集成和处理来自不同数据源的数据，以便组织可以更好地理解和利用这些数据。作为一种企业数据管理模式，适用于那些向大型用户团队提供对管理良好、集成且安全的数据访问的公司。现在，在美国大学和国家实验室工作的科学家们努力打造一种Data Fabric，称为国家科学Data Fabric（NSDF）。

NSDF是由美国国家科学基金会（NSF）资助的一个试点项目，旨在提供一个连接美国全国和世界各地研究机构的Data Fabric。它是两年前由五位研究人员率先发起的，包括Valerio Pascucci(犹他大学)、Michela Taufer(田纳西大学诺克斯维尔分校)、Alex Szalay(约翰霍普金斯大学)、John Allison(密歇根大学安娜堡分校)和Frank Wuerthwein(圣地亚哥超级计算中心)。

“我们作为一群科学家和计算机科学家走到一起，认识到需要为这些科学家设计一种Data Fabric。” Taufer在今年早些时候的一次网络研讨会上说。

NSDF背后的理念是引入“一种新的跨学科方法，用于集成数据传输和访问共享存储、网络、计算和教育资源，从而使数据驱动的科学发现民主化”。“NSDF的愿景是建立一个全球连接的基础设施，在这个基础设施中，科学调查不受极端数据的限制。”

NSDF提供了“一个共享的、模块化的、容器化的数据交付环境”，“填补了我们当前计算基础设施中缺失的中间部分”。NSDF图像显示了通过设备交付的单一领域无关的堆栈，它将核心Data Fabric功能与跨参与站点的各种数据存储、计算和网络资源的连接器混合在一起。

根据NSDF网站，NSDF试点通过几个存储库提供堆栈入口，包括政府文件系统、区域存储、开放科学网格(OSG) StashCache和Origin节点、开放存储网络(OSN)存储POD、国家研究平台(NRP) Fiona、云对象存储和边缘数据流。

NSDF栈本身被分解成几个组件，包括:

用户层，由命令行工具、特定领域应用程序、交互式笔记本(如Jupyter)和仪表板组成;

由数据管理和计算连接组成的三层可编程数据层；数据发现、数据管理、数据处理、数据分析、数据映射和可视化工具;工作流程和自动化;

由CDN内核和插件组成的可扩展内容交付网络，通过SDK、API和微服务公开;

并支持交付核心Data Fabric功能的服务，例如数据目录、安全性、沿袭跟踪、起源、容器和编排。

通过该设备启用NSDF后，参与的用户可以访问本地存储和应用程序。数据通过Internet - 2共享，Internet - 2是连接各个政府和大学站点的高速网络，具有100Mbps的主干，其中一些站点升级到太比特主干。

DoubleCloud是一个国家科学数据民主化联盟(NSDDC)，它正在托管一个NSDF目录，用户可以在其中发现和访问数PD的索引科学数据。大约有65家研究机构在DoubleCloud数据目录中列出了他们的数据，包括AWS OpenData、亚利桑那州立大学(ASU)、弗吉尼亚大学、西印度群岛大学(UWI)等。

DoubleCloud在NSDF网站上表示:“我们的服务在文件或对象级别对科学数据进行细粒度索引，为数据分发策略提供信息，并从消费者的角度改善用户体验，目标是实现端到端的数据流优化。”

自推出以来，NSDF已扩展到各种站点和系统，包括亚利桑那大学、印第安纳大学的Jetstream和德克萨斯大学奥斯汀分校的德克萨斯高级计算中心(TACC);德克萨斯大学奥斯汀分校TACC中心;位于德克萨斯州达拉斯和弗吉尼亚州阿什本的IBM云站点;芝加哥大学和TACC；犹他大学、威斯康辛大学麦迪逊分校和克莱姆森大学的云实验室；犹他大学高性能计算中心;AWS各区域的CloudBank;用OSG;各机构的开放储存网络;和CYVERSE。

国家自然科学基金试点项目目前正在支持几个研究项目，包括从南极洲观测深空的冰立方中微子天文台；意大利格兰萨索地下实验室的XenonNT暗物质探测器；以及康奈尔大学的康奈尔高能同步加速器源(CHESS)等项目。

古典风资讯网

拥抱科技有未来