掌握非结构化法律数据

拥抱科技有未来 2024-08-28 12:22:41

非结构化数据的增长带来了真正的挑战。由于数据的庞大规模和增长速度,许多组织都在努力管理非结构化数据,如文本、图像、视频和PDF等。对于律师事务所Katten Muchin Rosenman LLP(凯腾律师事务所)的员工来说,监管和安全带来了另一层担忧。

人们很难理解非结构化数据的巨大规模。几年前,作为其全球数据圈研究的一部分,分析公司IDC预测,到2025年,地球将在12个月内产生超过175 ZB(1ZB=10的21次方)的数据(该公司已将这一估计降至163 ZB)。

IDC表示,仅存储163 ZB的原始数据就需要超过7000亿个1TB的驱动器,这显然是不可能实现的,因为世界上所有介质(HDD、闪存、磁带、甚至手机)的安装存储容量只有大约13 ZB。根据IDC的记录,实际上只有大约7.5 ZB的数据被写入存储介质,这意味着大多数数据从未被写入,并且存储实际上是过度配置的。

律师事务所对数据高增长率很熟悉。Katten律师事务所在全球雇佣了700名律师,必须存储数十万客户案件的数亿份文件,这些文件可以追溯到几十年前。该公司的基础设施和数据中心运营主管Alexander Diaz表示,该公司总共存储了约240TB的数据,而且这一数字正以每年20%至25%的速度增长。

直到最近,该律所还在运营自己的非结构化数据归档系统,该系统从主要的Windows文件系统中获取数据,并将其转移到安装在律所数据中心合作办公室的归档存储服务器上。

然而,在最近的一次采访中,Diaz表示Katten律师事务所在档案方面遇到了一些运营问题,促使它寻求替代方案。该公司请来了非结构化数据管理解决方案公司Komprise来进行概念验证。

Diaz说:“我们发现存储在文件服务器上的大约70%的文件已经过期,超过三年没有被访问过,或者这个案子已经结案了。”“我提议进行大规模存档项目的另一个原因是,如果我们真的遇到勒索软件事件,可以限制我们的曝光率,因为现在这些文件不会受到风险影响。”

随着Katten Law对该软件的研究,他们发现了其他好处。例如,许多归档解决方案在生产文件系统中实现一个存根来表示已归档的数据。如果需要检索数据,用户将存根提交给归档解决方案,归档解决方案可以获取数据。然而,如果存根发生了什么事情,那么就很难重新访问存档数据,Diaz说。

他说:“Komprise采用了不同的方法。“他们使用符号链接……基本上就像一个快捷方式。因此,在你的Windows桌面上,你有一个快捷方式来引用实际文件或操作系统上的程序的路径。即使快捷方式或符号链接中断或消失,你仍然可以找到原始文件或程序。”

Diaz说,基于时间的非结构化数据归档是使用Komprise软件的另一个好处。对于许多传统的归档包,文件是基于一段时间进行归档的。因此,如果与案件相关的文件在三年内没有被访问,它将自动存档。这在法律行业并不奏效。

“很多时候,在法律案件中,尤其是诉讼案件中,它们可能会沉寂一段时间,然后可能会被提起,”他说。“假设我们代表某人。有一个判决,然后在原案和上诉之间有一段时间。所以仅仅基于时间并不总是有效的。”

Komprise使Katten Law能够根据案件实际结案的时间来归档与案件相关的文件,而不是一些没有被触及的任意年份。Diaz说,文档存档后,如果用户需要提取数据的只读副本,用户只需单击桌面上的快捷方式,就可以启动从Komprise存档中提取的数据到本地存储设备中,用户可以在那里检索它。

该公司正在将其主要存储平台从传统的磁盘过渡到闪存。Diaz说,将更多的数据转移到运行在Microsoft Azure BLOB存储上的基于komprise的存档中有助于降低成本,同时也为用户提供了更快的主存储的好处。

他说:“Komprise对我们来说非常、非常稳定。“我们一开始要么是结案,要么是数据超过三年没有被访问。大约六个月前,我们将门槛降低到两年无法访问,或者案件已经结束,我们最终将另外40TB的数据转移到Azure上。”

减少Windows文件共享的文件存储空间也有助于节省律师事务所的资金,特别是在今年晚些时候向新平台过渡的时候。Diaz说:“我不需要购买那么多的存储空间,所以这将为我们未来的购买节省开支。”

提高Katten Law数据安全性所带来的好处更难衡量。但随着今年勒索软件的再次上升,很明显它给律师事务所带来了真正的价值。Diaz说:“我再怎么强调也不为过,这也降低了我们的风险曝光率,因为任何存档的文件都不会受到任何黑客或勒索软件事件的影响。”“他们无法访问这些文件。他们不会受到任何安全事件的影响。”

0 阅读:0