AI侵权风波又来了!英伟达遭作家联合诉讼,内容权益之争再升级

乌鸦智能说 2024-03-13 14:17:25

3月10日,英伟达陷入了一场关于侵权的法律争议,美国作家Brian Keene, Abdi Nazemian和Stewart O'Nan联合控诉英伟达使用他们的原创书籍作品作为其人工智能生成平台NeMo的原始训练数据。

英伟达被指控侵权作品

诉讼涉及的具体作品包括 Keene的《幽灵漫步》(Ghost Walk)、Nazemian的《像一个爱情故事》(Like a Love Story)和O'Nan的《龙虾的最后一夜》(Last Night at the Lobster)。

诉讼称,这些书籍被包含在一个名为 "The Pile" 的数据集中,该数据集包含了196,640本图书作为基础模型的训练材料。去年十月,英伟达已经撤销了该数据库的访问权限,并提示“由于举报侵权,该数据集已失效,无法访问。”

截至周日,Nvidia 拒绝发表任何评论,律师也没有提出进一步了解情况的诉求。

/ 01 / AI与内容创作者之战

这已不是第一次AI与版权侵权的战争。

去年十月,《纽约时报》以侵权使用报道作为大模型训练数据将微软和OpenAI告上法庭,打响了新闻界与大语言模型开战的第一枪。

今年二月,美国数字新闻媒体The Intercept也参与了对OpenAI未经允许将新闻报道作为原始数据集的讨伐战。

The Intercept首席执行官Annie Chabel发文:“因资金紧缩,美国大部分新闻编辑室濒临倒闭,而OpenAI却拿着我们的新闻赚地盆满钵满。”

案件的法律诉讼上写道,“ChatGPT看似无所不能,但我们也应该清楚这种百科全书式的知无不答是建立在多少新闻记者的心血之上的。”

新闻业岌岌可危,LLM却拿着媒体的成果大行其道,记者们将这视为一种威胁。

去年十二月,因小红书未经授权使用了其原创作品作为训练数据,原画师@正版青团子将小红书绘画模型Trik诉至法院,称其“侵犯了创作者的合法权益”,这也是AI大模型在国内的首次公堂对簿。

AI与内容创作者的博弈,始于生成式人工智能的核心——数据。

数据是LLM大语言模型的养料,而大语言模型是生成式AI的基座。数据量级越大、越丰富、来源愈异质性愈强,生成的AI基础模型更加人性化、语义理解能力更强。GPT3惊人的生成能力背后是 570 GB的海量数据和3,000 亿单词,这些数据来自书籍、维基百科、研究文章、网络文本、网站以及其他形式的网络内容和写作。

从GPT1到GPT2、GPT3、GPT4,每一次产品的迭代背后都少不了训练数据集的指数级飙升。GPT1的训练数据仅为5GB,GPT2有40GB,GPT3为570GB,而最新版本GPT4已经达到了13万亿个token的数据量。科技巨头为了争夺生成式AI市场,会不断扩充自己的LLM训练数据库。而在人工智能发展初期,关于AI侵权,各国法律尚无明文规定。边界的模糊放大了相关争议,科技巨头与内容创作者之间弥漫着一场没有硝烟的战争。

/ 02 / LLM:洗稿?还是深度学习?

有网友认为,AI生产力是一种伪命题,精心炮制的糖衣背后是对互联网内容创作者的伤害。也有网友认为,“重新拼接”的概念是对AI深度学习能力神经网络运行原理的误读。

AI侵权指向了两个关键概念“深度学习”和“洗稿”。

LLM是使用深度学习算法处理和理解自然语言的基础机器学习模型。深度学习指机器通过自我训练、学习从海量级原始数据中寻找要素的内在关联和表示层次,最终达到像人类一样识别各种文字、图片、视频甚至生成相关要素的能力。

洗稿是指在内容创作过程中抄袭、剽窃各种原创作品中具有独创性受到版权保护的逻辑、素材,经过重新嫁接、拼贴、组合成新的文本。

AI究竟是洗稿还是深度学习,众说纷纭。

神经科学家兼AI评论员Sam Harris认为,《纽约时报》起诉 OpenAI 可能会扼杀AI领域的创新力量。他说:"仅仅因为生成了与《纽约时报》风格类似的文章就被起诉,OpenAI也太冤了。”

斯坦福大学法学教授Mark Lemley则呼吁建立一套保护创作者权益的法律条例,规范AI大模型训练数据时可能出现的侵犯创作者著作权的行为。科技分析师Benedict Evans称,这起诉讼是一个AI侵权史上具有里程碑意义的事件,"这个事件将会为后续如何处理AI大语言模型与内容创作者的纠纷奠定一个法律基调。"

其实,就生成式AI的运行原理而言,LLM的学习逻辑并非简单的组合、拼接、架构,而是深究人类思维的推断、预测等本质规律和理性决策能力,并不能简单地等同于“剽窃洗稿”。不过就目前的生成文本而言,在AI基础模型的学习初期,更多偏向于“模仿”已有训练材料输出作品,这就不可避免地带上了某些原创产品的“独创性”特质。

其实,大部分侵权案件都指向AI未经许可将原创作品作为预训练数据,通过神经网络等深度学习技术生成了具备原创作品的独特风格和要素的内容。纠纷的关键在于,大模型训练的数据来源是否合法,AI公司与受著作权保护的创作者们是否达成了某种“允许使用”的约定或协议。

随着AI产业的发展,全球也将逐渐完善AI法律法规体系,明确AI侵权的构成条件、构成要素,以法律为准绳制约科技巨头LLM的训练数据使用行为,在法治的轨道上保障AI公司与内容创作者的共赢共利。

0 阅读:17