知识版权是AI语言模型发展的“紧箍咒”吗?

夜春阅览趣事 2024-11-20 10:02:43

在探讨语言模型发展前,我们首先需要厘清一个重要的概念,那便是人类最伟大的制度之一——知识产权。

正是因为有了知识产权的存在,让写作者和发明者等凭借聪明才智创造价值的人能够通过自身的成果挣钱并获益,同时也防止了他人的侵权行为。对知识产权的保护是天经地义的,毕竟这是人类进步的强大动力。

然而,今年在《自然》杂志上有一篇文章指出:

现在的ChatGPT,是用最先进的技术,投喂陈旧的语料。因为人类近几十年的知识精华,都是被保护的,你不能随意侵权使用。

你可以给它灌输莎士比亚的作品、《荷马史诗》或者是牛顿的文章,但近几十年的内容却无法轻易纳入模型里。但是你要知道,人类真正的知识大爆发恰恰是在近 100 年,可按照目前的版权规定,作者死后 50 年(有的国家是 70 年)其作品才进入公共版权领域,这也就导致近几十年的大量知识都无法进入 ChatGPT 的语料库。

不知道条友们是否使用过 ChatGPT ,你如果使用过后可能会发现它的回答往往比较乏味,中规中矩且政治正确。这是因为它需要面向所有人,具有普适性。

所以我在思考,ChatGPT 如果要继续发展,或许需要成千上万个拥有版权的出版社、媒体集团、工作室甚至作者本人的授权,或者让他们直接投身其中参与。同时,ChatGPT 也应当为这些参与者提供新的帮助和保护。

我们现今生活的时代,存在着一种情况。将知识财富分为公共财富和私库。比如说现在的ChatGPT是人类共有的几千年的文明财富,我们的的知识财富我们称之为“公库”,也就是公共财富。我们可以自由阅读《诗经》、乐府诗、唐诗宋词以及莎士比亚的作品等等。而私库则像梁文道、余华的文章。

未来很可能会是公共财富库拥有无数个接口,连接着众多的私库。这样一来,某些用户只有从不同的私库中才能获取到他们真正想要的东西,而这些私库在提供知识的同时,自身也能够从中获得收益。

所以我认为,未来对于那些手中握有版权的优质内容产出者来说,与 ChatGPT 这类技术的结合或许是一个机会。但其中也存在问题,所有基于大语言模型训练的模型,在语料方面一直都会遇到壁垒。就像前文提到的版权壁垒,获取版权或许并非特别困难,真正困难的往往是语言文字中的平台壁垒问题。

在中文世界,尤其是我们内地,当下有着海量的有价值内容。但这些有价值的内容并非都能在万维网中被搜索到,而是分散在微信平台、小红书等不同平台地方。

这些平台存在着壁垒,导致百度、Google 等搜索引擎都无法获取其中的内容。比如,当我们想要用一个大模型来训练简体中文的 AI 时,如果想要获取这些平台中的内容,就必须与腾讯或者小红书等进行合作,或者建立某种关系。

我们可以先暂且假设这些平台壁垒不存在,或者想办法去克服它们。但是除此之外,还有一个问题值得关注,在国外,使用 ChatGPT 这类技术还面临着伦理问题。

如果我们期望人类能更好地使用 ChatGPT ,最好是让陪伴我们多年的手机或者电脑具有记忆功能,它能够记录下我们此前阅读过的东西、回复他人的内容、所写的文字,甚至是购买和阅读过的书籍以及消费记录。

将这些内容传输ChatGPT上,让模型更好的为你进行服务。这种个人的记忆越多,它的适配度越高,但这些记忆本身就属于个人隐私。

【文本来源 @读库 的视频内容】

0 阅读:0