规避“垃圾”数据,MIT开发新工具帮助甄选合适的训练数据集

新兴科技是个圈 2024-09-03 11:14:43

(来源:MIT News)

为了训练更强大的大型语言模型(LLM),研究者们使用了来自数千个网络来源的海量数据集。

但随着这些数据集被不断组合和重新组合,关于它们来源的重要信息以及使用的限制往往在过程中丢失或混淆。

这除了会引发法律和伦理问题外,还可能影响模型的性能。具体来说,如果一个数据集被错误分类,训练机器学习模型的人可能会在不知情的情况下使用不适合该任务的数据。

此外,来源不明的数据可能包含偏见,导致模型在实际应用中做出不公平的预测。

为提高数据透明度,MIT 及其他机构的一个跨学科研究团队对 1800 多个常见数据集进行了系统审计,发现超过 70% 的数据集缺少某些许可信息,约 50% 的数据集包含错误信息。

基于这些发现,研究团队开发了一款名为“数据来源探索器”的用户友好的工具,该工具能够自动生成数据集的创建者、来源、许可和允许使用方式的易于阅读的总结。

MIT 媒体实验室人类动力学小组负责人、该项目研究报告的合著者 Alex“Sandy”Pentland 教授表示:“这些工具可以帮助监管者和从业者在部署 AI 时做出明智决策,并推动 AI 的负责任发展。”

“数据来源探索器”可以帮助 AI 从业者选择适合模型目标的数据集,从而构建更有效的模型。长期来看,这有助于提升 AI 模型在实际应用中的准确性,例如在评估贷款申请或回应客户查询时。

MIT 人类动力学小组的研究生、该论文的共同第一作者 Robert Mahari 指出:“了解 AI 模型的能力和局限性,最好的方式之一就是理解它所训练的数据;当数据来源不清或混淆时,透明性就成了一个严重的问题。”

(来源:Nature Machine Intelligence)

Mahari 和 Pentland 的共同作者包括媒体实验室的研究生Shayne Longpre,领导Cohere for AI 研究实验室的 Sara Hooker,以及来自 MIT、加州大学欧文分校、法国里尔大学、科罗拉多大学博尔德分校、奥林学院、卡内基梅隆大学、Contextual AI、ML Commons 和 Tidelift 的其他研究人员。目前这项研究已经发表在 Nature Machine Intelligence 杂志上。

注重微调

研究者常用一种称为“微调”的技术来提高大型语言模型在特定任务上的性能,如问答系统。为此,他们精心构建了提升模型针对单一任务表现的精细化数据集。

MIT 的研究者们特别关注这些微调数据集,它们通常由研究人员、学术机构或公司开发,并带有特定的使用许可。

当众包平台将这些数据集聚合到更大的集合中供从业者微调使用时,原始的许可信息往往会被忽略或丢失。

Mahari 说:“这些许可应该是重要的,并且应该是可执行的。”

例如,如果数据集的许可条款有误或缺失,有开发者可能会花费大量时间和金钱开发一个模型,但最终因为某些训练数据包含私人信息而不得不将其下架。

Longpre 补充说:“人们可能最终会训练出一些模型,而对这些模型的能力、问题或风险根本不了解,然而这些问题最终都源自数据。”

在这项研究的开端,研究人员正式定义了数据来源,包括数据集的来源、创建和许可历史,以及其特征。基于这些特性,他们开发了一种结构化的审计程序,对来自热门在线存储库的 1800 多个文本数据集进行了审查。

在发现超过 70% 的数据集含有“未指明”的许可信息后,研究人员通过反向追溯填补了这些空白。通过他们的努力,这些“未指明”许可的数据集比例降至约 30%。

他们的工作还揭示出,正确的许可往往比存储库分配的许可更具限制性。

此外,他们发现几乎所有的数据集创作者都集中在全球北部,这可能会限制模型在其他地区的应用能力。Mahari 解释道,由美国和中国研究人员创建的土耳其语数据集可能不包含任何文化上重要的内容。

他说:“我们几乎在自欺欺人,认为这些数据集比实际情况更加多样化。”

有趣的是,研究人员还观察到,2023 年和 2024 年创建的数据集限制显著增加,这可能是由于学术界担心其数据集被用于未经授权的商业目的。

用户友好型工具

为了让他人无需手动审计就能获得这些信息,研究团队构建了“数据来源探索器”工具。该工具除了可以根据特定标准对数据集进行排序和筛选外,还允许用户下载一个数据来源卡,提供数据集特征的简明、结构化概述。

Mahari 说:“我们希望这是向前迈出的一步,不仅是为了了解现状,还能帮助人们在未来就所使用的训练数据做出更明智的选择。”

未来,研究人员希望将他们的分析扩展到多模态数据,如视频和语音,并研究数据来源网站的服务条款如何在数据集中得到反映。

随着研究范围的扩展,他们还在与监管者接触,讨论其发现以及微调数据所带来的独特版权问题。

Longpre 说:“我们需要从一开始就关注数据的来源和透明性,在数据集创建和发布时,这样才能让他人更容易获取这些见解。”

EleutherAI 的执行董事 Stella Biderman 曼表示:“许多政策干预措施假设我们可以正确分配和识别与数据相关的许可,而这项工作首先表明情况并非如此,并显著改善了可用的数据来源信息。此外,第三部分包含相关的法律讨论。这对那些没有专门法律团队的公司外的机器学习从业者非常有价值。许多希望构建公共利益 AI 系统的人目前都在默默挣扎,试图弄清楚如何处理数据许可问题,因为互联网的设计让搞清楚数据来源变得很麻烦。”

原文链接:

https://news.mit.edu/2024/study-large-language-models-datasets-lack-transparency-0830

0 阅读:0