OSI推出备受争议的开放AI定义

开放源代码倡议（OSI）几乎花费了两年时间试图定义“开放源代码 AI”——即符合任何人使用、研究、修改和分享的 AI 系统。其董事会将于 10 月 27 日（星期日）对开放源代码 AI 定义（OSAID）进行投票，1.0 版本预计在 10 月 28 日发布。在这样的工作中，不可能满足所有人，更不要说将其作为目标。然而，开源社区中的一些知名人士对 OSAID 表示担忧，认为 OSI 可能将门槛设得过低，这可能会削弱多年来社区为让供应商遵守或尊重原始开源定义（OSD）所付出的努力。

定义“开放源代码 AI”

OSI 执行董事 Stefano Maffulli 于 2023 年 6 月宣布组织打算为开放源代码 AI 提供定义。他对一些宣称“开放”或“开放源代码”的大型语言模型、基础模型、工具、服务提出了异议，因为它们增添了一些与 OSD 相悖的限制。2023 年的一项调查显示，一些名义上的开源大型语言模型（LLM）并没有真正做到开放源代码。

问题并非只是简单地为 LLM 使用“符合 OSD 的许可”即可，因为涉及的组件更多。OSD 通常适用于程序的源代码，即“程序员可以修改的首选形式”。如果开发者无法研究、使用、修改和分享一个程序，那么它就不被视为开源；如果某许可证不保持这些自由，则该许可证不符合 OSD。一个程序可以包含非自由的数据并仍然是开源的。例如，雷神之锤 III 竞技场（Q3A）的源代码在 GPLv2 下开放发布，但不包含实际游戏所需的 pak 文件。这并不影响他人使用 Q3A 的代码创建自己的游戏，如 Tremulous。

感兴趣吗？免费试用 LWN 一个月，无需信用卡。

讨论“AI 系统”时，情况更加复杂。AI 系统不只是运行模型的代码，而是一个复杂的集合，数据也无法像游戏中的 pak 文件那样完全分离。以 LLM 为例，涉及的内容包括模型架构、训练代码、模型参数、训练方法、数据标注过程、支持库，以及用于训练的原始数据。

OSI 从去年起便开始着手制定这一定义。2023 年 6 月 21 日，它在旧金山的 Mozilla 总部举行了启动会议，之后通过一系列线上线下会议和论坛邀请公众参与。LWN 还在 FOSDEM 2024 上对其中一场会议进行了报道。

OSAID 的当前草案引用了经济合作与发展组织（OECD）在其人工智能委员会建议中的 AI 系统定义：

一种基于机器的系统，旨在通过接收到的输入进行推理，从而生成可影响物理或虚拟环境的输出，如预测、内容、推荐或决策。

这包括训练和运行系统的源代码、模型参数（如权重或其他配置设置），以及关于训练数据的详细信息，使得技术人员可以创建一个实质上等效的系统。

修改的首选形式

根据提议的定义，以上所有元素必须在 OSI 批准的许可下提供，这似乎符合我们对“开源”的期望。然而，数据信息和模型参数则可以通过“OSI 批准的条款”提供。什么是 OSI 批准的条款目前尚未明确。

对于训练数据，没有提供的要求。根据当前的 OSAID 草案，只需提供“关于数据的详细信息”，而非数据本身即可。

OSI 在 8 月 22 日发布了 0.0.9 版本，并承认“训练数据是定义中最受争议的部分之一”。然而，OSI 选择不要求训练数据：

经长时间的讨论和联合设计会议后，我们认为将训练数据作为一个优势，而非强制要求，是最佳方案。

训练数据对于研究 AI 系统非常有价值：可以理解系统所学的偏见，而这些偏见可能影响系统行为。然而，训练数据并不是对现有 AI 系统进行修改的首选形式。这些数据中的见解和关联已经被学习。

当前的定义让一些人觉得 OSAID 并未完全保障其应有的四项自由。例如，julia ferraioli 写道如果没有数据，OSAID 只保证了使用和分发 AI 系统的能力。她认为：“他们可以通过迁移学习和微调等方法构建在其之上，仅此而已。”

Tom Callaway 在 LinkedIn 上详细论述了为什么开放数据应该是必要的。他承认分发者可能出于多种原因不愿或无法分发训练数据，如数据本身具有很高的货币价值，或数据受到法律问题的限制。然而，他指出，这并不能为允许公司称其系统为开放的定义提供理由：

如果我们让开放源代码 AI 的定义包含一项可选数据的漏洞，我们就贬低了“开源”在其他领域中的意义。虽然许多公司希望开源的意义被弱化，但我认为我们绝不能在这里妥协，即便这意味着一开始的开放源代码 AI 系统数量较少。

对缺乏训练数据的反对不仅仅是对开源原义的坚持。Giacomo Tesio 列出了一些在 OSAID RC2 版本中未解决的问题，包括在机器学习模型中植入不可检测的后门的安全隐患。

各方意见

自由软件基金会（FSF）宣布其正在制定“自由机器学习应用程序”的标准，以识别符合四项自由的 ML 应用程序。FSF 认为“若要称一个 ML 应用程序‘自由’，其所有训练数据和相关数据处理脚本都必须尊重用户的自由”。

然而，FSF 在此区分了非自由与非道德：

某些非自由的 ML 系统可能因不公开训练数据有合理的道德理由，例如个人医疗数据。在这种情况下，我们会将整个应用程序视为非自由的。然而，若它有助于完成对社会至关重要的工作，例如疾病诊断，使用它在伦理上或可被原谅。

软件自由保护协会则发布了关于 LLM 支持的生成式 AI 编程的“理想声明”，侧重于用户自由而非 OSAID，提出了一种只用于创建 FOSS 的理想 LLM 系统。

对批评的回应

我就当前 OSAID 草案中的一些批评问题邮件询问了 Maffulli，为什么 OSI 看似在“降低标准”。他回应道：

直言不讳地说：您提到的“源代码再分发”正是让像 [Callaway] 这样的人陷入思维陷阱的原因。

有些群体认为需要更多的组件来保证透明度，而另一些群体认为模型参数和架构足以对 AI 进行修改。OSAID 集合了全球的广泛利益相关者，其结果反映了 AI 实践者的真实见解。

古典风资讯网

科技荐闻