苹果「自作自受」,海外各大平台纷纷拒绝苹果AI抓取数据

果粉Fans 2024-08-29 23:57:12

明明可以悄悄爬,苹果却偏偏选择了公开。

苹果公司推出了一款工具,允许新闻机构、媒体选择「退出其人工智能训练」。不到三个月时间,许多知名的新闻媒体和社交平台已经开始采用这项工具。

据《连线》杂志消息,包括 Facebook、Instagram、Craigslist、Tumblr、《纽约时报》、《金融时报》、《大西洋月刊》、Vox Media、《今日美国》网络以及《连线》杂志的母公司康泰纳仕集团在内的多家机构选择将自己的数据排除在苹果的人工智能训练之外。

这种冷淡的反应反映了人们对于机器人爬虫的看法和使用发生了重大变化。这些机器人爬虫已经在网上搜集数据数十年,现在它们在收集人工智能训练数据方面发挥着核心作用,并成为了关于知识产权和网络未来发展的重要争议点。

这款新工具,名为 Applebot-Extended,是对苹果网页爬虫的扩展,它特别允许网站所有者告知苹果不要使用他们的数据进行 AI 训练。苹果在其一篇解释该工具运作方式的博客文章中称此为“控制数据使用”。

最初的 Applebot 于 2015 年发布,最初目的是为了支持苹果的搜索产品,如 Siri 和 Spotlight。然而,近年来 Applebot 的用途已经扩大:它收集的数据也可以用来训练苹果为其 AI 努力所创建的基础模型。

苹果发言人 Nadine Haija 表示,Applebot-Extended 是一种尊重出版商权利的方式。它实际上并没有阻止原始的 Applebot 抓取网站——这会影响网站内容在苹果搜索产品中的展示方式——而是阻止这些数据被用于训练苹果的大规模语言模型和其他生成式 AI 项目。本质上,这是一个定制另一个机器人工作的机器人。

出版商可以通过更新其网站上的文本文件(称为 Robots Exclusion Protocol 或 robots.txt)来阻止 Applebot-Extended。这个文件已经控制了机器人如何抓取网络数据数十年之久,现在它已经成为关于 AI 如何训练的更大争议的中心。许多出版商已经更新了他们的 robots.txt 文件,以阻止来自 OpenAI、Anthropic 和其他主要 AI 玩家的 AI 机器人。

robots.txt 文件允许网站所有者按具体情况阻止或允许机器人。虽然法律没有要求机器人遵守该文件中的内容,但遵循这些指示是一种长期存在的规范。不过,有时候这一规范会被忽略:今年早些时候,《连线》杂志的一项调查发现,人工智能初创公司 Perplexity 忽视了 robots.txt 文件,秘密地抓取网站内容。

Applebot-Extended 作为一项新工具,目前只有相对较少的网站屏蔽了它。加拿大安大略省的 AI 检测初创公司 Originality AI 分析了 1,000 个高流量网站的样本,发现大约 7% 的网站(主要是新闻和媒体网站)已经屏蔽了 Applebot-Extended。

本周,AI 代理监管服务 Dark Visitors 对另一组 1,000 个高流量网站的样本进行了分析,发现大约 6% 的网站已经屏蔽了该机器人。综合来看,这些努力表明,绝大多数网站所有者要么不反对苹果的人工智能训练做法,要么根本不知道有屏蔽 Applebot-Extended 的选项。

在本周进行的一项单独分析中,数据记者 Ben Welsh 发现,在他调查的新闻网站中,刚超过四分之一(1,167 家主要以英语为主的美国出版物中的 294 家)屏蔽了 Applebot-Extended。

相比之下,他发现调查的新闻网站中有 53% 屏蔽了 OpenAI 的机器人。去年 9 月,谷歌推出了自己的 AI 特定机器人 Google-Extended;大约 43% 的网站屏蔽了它,这表明 Applebot-Extended 可能仍未被广泛发现。不过,正如 Welsh 所说,自他开始调查以来,这个数字一直在“逐渐上升”。

Welsh 有一个正在进行的项目,监测新闻机构如何对待主要的人工智能代理。“新闻出版商之间出现了一些分歧,他们是否想屏蔽这些机器人,”他说。“我无法确切知道每个新闻机构为何作出这样的决定。显然,我们可以读到许多新闻机构签订了许可协议,他们以允许机器人进入而获得报酬——这可能是一个因素。”

去年,《纽约时报》报道说,苹果正试图与出版商达成人工智能协议。自那以后,竞争对手如 OpenAI 和 Perplexity 已经宣布与各种新闻媒体、社交平台和其他热门网站建立了合作关系。“世界上许多最大的出版商显然都采取了战略方针,”Originality AI 创始人 Jon Gillham 说。“我认为在某些情况下,其中涉及一种商业策略——比如,在达成合作协议之前保留数据。”

有一些证据支持 Gillham 的理论。例如,康泰纳仕网站曾屏蔽 OpenAI 的网页爬虫。在该公司上周宣布与 OpenAI 合作后,它解除了对 OpenAI 机器人的屏蔽(康泰纳仕拒绝就此事发表评论)。

与此同时,Buzzfeed 发言人 Juliana Clifton 告诉《连线》杂志,该公司目前屏蔽了 Applebot-Extended,并将其能识别出的每个 AI 网页爬虫机器人都列入了屏蔽名单,除非其所有者与该公司建立了合作关系(通常是付费的),该公司还拥有《赫芬顿邮报》。

0 阅读:7