天生爱歧视?AI:我性本善,都是你们人类的错

未来图灵 2017-10-31 22:08:56

人工智能(AI)的问题并不像埃隆·马斯克警告的那样——智能化程度不断提高,最后接管世界。真正的问题是,人工智能还不够聪明。只有训练用的数据足够出色,人工智能系统才能上演卓越表现。不过,很多数据过于陈旧并且存在偏见。这些数据正悄无声息地影响我们的未来。

偏见和不公

某些人工智能软件能够自动决策,帮助法官对犯罪行为做出评判。在智能手机上输入“药房”,谷歌的人工智能便会调出你最喜欢的药房的地址。医院利用人工智能制定治疗方案,美联社利用这项技术撰写小联盟赛事的稿件。虽然人工智能几乎到了无所不在的程度,但这项技术是否已做好准备,迎接属于它的黄金时代,现在仍是一个未知数。

人工智能系统天生就存在偏见和不公问题。2016年,弗吉尼亚州的中学生卡比尔·阿里用谷歌搜索“3名黑人青少年”,谷歌算法给出的结果是“嫌疑犯照片”。当搜索“3名白人青少年”时,搜索引擎给出的却是“微笑的年轻人”。同样是在2016年,非盈利性公司ProPublica进行的一项研究发现,人工智能软件COMPAS存在严重的种族偏见。这款软件最初用于评测刑事案被告未来实施犯罪的几率,随后用于决定是否同意保释和帮助做出判决。与白人被告相比,COMPAS评测黑人被告时的错误率更高,更有可能认定他们存在“再犯倾向”。2015年,一项针对在线广告的研究发现,谷歌人工智能系统向女性投放的高收入岗位招聘广告的数量不及男性,说明人工智能存在性别歧视。

人工智能系统往往在不经意间,折射出社会上存在的各种偏见,其中一大原因在于,为了让智能机器学习本领,首先要给它们“喂食”大量数据。人类存在各种偏见,让人类负责这项工作,人工智能存在偏见也就不足为奇。除了个体的偏见,人工智能系统研发团队合法获取的数据也是问题关键——喂食什么样的数据,就会造就什么样的人工智能系统。人工智能使用的数据集可能存在严重的版权问题,导致偏见问题进一步恶化。

两大获取方式

研发人工智能系统时,主要有两种数据获取方式。一种方式是创建一个平台,用于收集数据,例如人们免费向Facebook提供个人信息。(Facebook获取的关于人们沟通方式的数据集可能是世界上最大的数据集之一,可用于创建一个不可思议的自然语言人工智能系统。)另一种数据获取方式是,研发人工智能软件,购买或者从别处获取数据。根据纽约大学法学院研究员阿曼达·勒文多维斯基最近发表的一篇论文,这会导致一系列问题,包括试图模糊未经授权数据的使用,以及采用存在偏见的公共数据集。

当一家公司依赖并非由自己收集的数据,便会抑制可导致人工智能系统受到严格审查的不利因素,因为利用未经授权数据提高人工智能系统的智能化程度时,企业要承担相应责任。此外,大型数据集往往有版权,这意味着训练数据通常来自公共数据集或者其它被公开的数据,例如维基解密曝光的数据或者调查过程中公布的数据。

公共数据没有版权限制,任何人可以免费获取。这种数据的问题在于,通常比较陈旧,可能带有所处时代的道德观念和偏见。从哪些图书获得出版机会到医生选择哪些课题展开研究,美国的种族主义和性别歧视历史在一定程度上反映在过去公布,现在可以免费获取的数据之中。此外,人工智能系统还会利用遭到泄密或者犯罪调查公布的数据集。这些数据能够引发巨大争议和质疑,通常不会公共获取。

训练数据是关键

勒文多维斯基在论文中指出,安然公司的电子邮件是一个典型例子。这些电邮是世界上用于训练人工智能系统的影响力最大的数据集之一。安然的邮件数据集涵盖160万封员工往来电邮,2003年联邦能源管理委员会对外公布。随后,它们便成为一个常用的人工智能系统训练数据集。勒文多维斯基表示:“如果德州一家石油天然气公司因系统性和体制化的不道德文化导致欺骗行为,受到联邦政府调查并最终倒闭,促使你认为他们的员工往来邮件存在严重偏见,你无疑是对的。研究人员利用安然电邮,分析性别歧视和权力动态。”这个用于训练人工智能的最流行电邮数据集成为研究人员的一个有用工具,用于研究厌女症。我们的机器可能“学坏”,表现出与安然高管一样有毒的大男子主义。

2016年,维基解密在其网站上公布了2万封电邮。这些电邮采用机器可读取格式,来自于希拉里竞选团队负责人、前白宫幕僚长约翰·波德斯塔。毫不令人感到吃惊的是,2万封电邮成为人工智能训练数据,因为这些数据不可能在法律层面遭受阻力。

人工智能软件研发团队必须对他们的软件进行训练,通常是利用合法获取的数据,即使这样的数据并不完美。现在,我们有必要澄清一点,利用版权数据研发人工智能系统是否应被视为“正当使用”,并不违反版权法?勒文多维斯基表示,这个问题尚未对簿公堂,除非发生相关案件并诉诸法律。人工智能研发团队可能继续依赖存在偏见,但易于获取并且在法律上不会引发争议的数据集。他们要经历一个非常痛苦的过程,确保人工智能系统的内部机制能够避免潜在的版权侵权行为。

利用相关数据训练人工智能系统,让它们代替我们思考之时,我们不仅要关注透明和责任问题,同时还要确保未来的人工智能系统能够帮助我们建设一个更美好的世界,不重蹈过去的偏见和不公正做法。

本文为未来图灵(futureturing)独家文章,转载请申请授权并注明来源。

0 阅读:0