Atlan重塑数据控制平台

拥抱科技有未来 2024-08-19 09:54:32

作为企业数据目录佼佼者,Atlan这家年轻的公司正在迅速积聚动力,在Forrester调查中还获得了该领域的第一名。但Atlan首席执行官告诉我们,数据目录还会带来更多的创新。

在最近的Forrester Wave企业数据目录报告中,Forrester给Atlan企业数据目录打了4.20分,给Atlan公司的战略打了4.50分,这两个分数都高于报告中其他11家数据目录供应商。Atlan唯一没有获得第一名的类别是市场占有率,这家成立六年的公司在这一类别中获得了2.00分,远远落后于这个市场上更大、更老、更成熟的公司。

Forrester首席分析师Jayesh Chaurasia写道:“即使作为新进入这个市场的公司,Atlan的第三代数据目录也通过熟练地预测自动化技术和解决战略客户需求,迅速超过了老牌公司。”“Atlan是一个有远见的玩家,有一个明确而雄心勃勃的目标:成为能够实现复杂业务用例的数据和人工智能控制平台。”

Forrester分析师对Atlan当前产品的几个方面表示满意,包括它通过自动元数据跟踪实现数据普及化和自助服务的能力,它使用GenAI来协助发现,它的端到端来源跟踪,以及为所有业务和技术人员提供类似netflix的个性化体验。”

Atlan的营收较低,这对于一个相对较新进入该领域的公司来说并不奇怪。然而,Forrester在用户数量上给了它一个不错的分数,这表明该公司正在取得进展。

三种数据目录类型

在最近接受媒体采访时,Atlan首席执行官兼联合创始人Prukalpa Shankar讨论了2024年数据目录市场的状况,公司为达到目前的状态必须克服的挑战,以及她对数据目录未来的看法。

Shankar说:“过去几年被滥用最多的词可能是‘目录’。”“当有人问我一些问题时,我会说,你说的‘目录’是什么意思,因为它的意思略有不同。”

Shankar说,有三种类型的数据目录,首先是存储和公开技术元数据以使应用程序能够共享数据的目录,例如AWS的Amazon Glue (Snowflake的新Polaris目录和Databricks的Unity目录也符合这一要求)。

“元数据对于驱动下游应用正变得非常重要,”Shankar说。“因此,我们看到整个领域的供应商开放了他们的元数据API,就像在应用程序世界中,SaaS应用程序的单点登录一样。我们看到元数据正在成为数据世界的单点登录。”

第二种类型的数据目录是数据字典版本,它更接近用户,需要更好的用户体验,Shankar说。Tableau以其Tableau数据目录引领了这一潮流,它允许用户发现各种指标在BI环境中的含义,以便他们能够理解它。另一个类似的产品是dbt Labs Explorer。

“第三是我们如何看待自己,这更像是一个目录的控制平台版本,”Shankar说。“控制平台的基础在元数据层,它能够将所有这些生态系统的元数据汇集在一起,将其缝合在一起,使其智能化,使其有意义,然后在这些生态系统中驱动应用”。

数据控制平台

Atlan构建的数据目录的控制平台必须能够处理大量不同的数据、用户和工具。各类数据;数据分析师、数据工程师和数据科学家等用户;从BI产品到ETL,从数据转换工具到数据仓库和数据湖,所有工具都必须与该系统协同工作。

正如Forrester指出的那样,Atlan在处理当前的数据、工具和用户生态系统方面做得很好。该公司利用人工智能和机器学习在可能的情况下实现元数据跟踪的自动化,从而减轻了数据管理员手动拼接和分段数据的负担。

她说:“三年前,我写了一篇名为《数据目录3.0》的文章,说元数据正在成为大数据,我们需要像考虑大数据那样考虑元数据的基础计算系统。”“有趣的是,三年后,我不认为它会变成大数据,它就是大数据。我们有一些客户,他们在开始的一周就把数百万的资产纳入(目录)。从元数据的角度来看,我们处理的规模与五六年前的规模完全不同。”

元数据跟踪的自动化现在很重要,但随着数据目录必须管理的用例的数量和种类不断向外和向上扩展,它在未来将变得更加重要。

“两年后,我们的数据消费者将是LLM(大型语言模型),在LLM堆栈中,我们正在处理的问题将是一个完全不同的世界。”Shankar说。“我们可能不会只坚持一个基础模型。我们将有跨架构的重要的多模型部署。我们将处理非结构化数据。唯一阻碍我们进入那个世界的是人工智能就绪数据的概念。”

解决数据管理

Shankar说,数据管理的基本挑战在过去25年多的时间里没有改变。在正确的时间将正确的数据发送到正确的位置仍然是最终目标。但是数据的类型和人们想要消费数据的地方——更不用说时间轴了(比如现在)——已经发生了很大的变化,这不仅是像Atlan这样的数据目录供应商所面临的挑战,也是整个数据管理领域所面临的挑战的一部分。

最近的行业事件,比如Apache Iceberg作为表格式标准的出现,以及连接元数据目录的Iceberg REST API,比如Snowflake的Polaris和Databricks的Unity Catalog,都对客户有好处。Shankar希望将讨论推向数据目录堆栈的更高层次,并最终进入控制平台。

Shankar说:“我非常看好世界走向越来越开放标准的版本。”“我认为现在已经有了根本性的改进,从数据湖层,到数据本身的开放标准,所以你可以带自己的计算。我认为元数据层也会出现同样的情况。”

客户自然希望避免锁定,无论是云锁定、数据库锁定、表格式锁定还是数据目录锁定。即使Atlan产品不是开源的,Shankar说,Atlan努力使其平台开放,并开放对其元数据的访问。“越来越多的玩家开始开放元数据,越来越多的客户开始要求它。”

Atlan使用图形数据库来帮助和理解它所跟踪的不同类型的元数据。这包括表元数据、来自数据管道的操作元数据、来自SQL转换的沿袭元数据,以及作为标记跟踪的遵从性元数据。通过以图形的形式收集和跟踪所有这些元数据,并通过控制平台将其公开,Atlan能够为客户提供更好的可见性和访问权限。

Shankar继续说道:“尽管生态系统经历了三层技术转型,但最后一段实际上与15年前的情况非常相似。”“我认为我们现在终于可以解决最后一段的问题了。我认为这是需要解决的问题的最后一步。”

0 阅读:1