AI检验同性恋?大概只比瞎猜准一点吧

日前，斯坦福一篇题为《深度神经网络基于人脸图像的性取向检测比人类更准确》（Deep neural networks are more accurate than humans at detecting sexual orientation from facial images）发布在了心理学领域顶尖期刊《人格与社会心理学》上，引起了轩然大波。该研究发现，深度神经网络（DNN，Deep Neural Network）技术可以用于识别性取向，而且相当准确。

通过单张面部照片，该AI程序可以判定该男子或女子是否同性恋：男性的准确率为81%，女性则有71%。当单个对象的参考面部照片增加至5张时，准确率会相应提高至：男性91%，女性83%。

一些媒体和专家担心，若此项应用进一步成熟并为某些组织或政府所用，则可能造成恶劣的影响。目前，苏丹、阿富汗、伊朗等国会对LGTB群体定罪甚至判刑，近年来不断在世界各地制造事端的恐怖分子，也可能通过此应用加害同性恋群体。

一低头一抿嘴，就能改变研究结果？

斯坦福商学院的助理教授科辛斯基（Michal Kosinski）与研究生王轶伦（Yilun Wang）是这项研究的发布者。通过美国某社交网站，他们采集了36630位男性的130741张照片和38593位女性的超过170360照片，其中同性恋和异性恋各占一半。

借助Face++软件把这些照片中合影、面部不全、面部太小和没有面向相机的照片去掉后，还剩35326张符合要求的照片。然后，通过众多基准点标记脸部特征，同时用倾斜度、偏转角度等参数定位人脸，Face++把脸型、嘴型、鼻型、眉形及面部的毛发等这些特征全部提取出来并进行量化。

紧接着，他们直接选取了经过260万张照片训练过的深度神经网络人脸识别模型VGG-Face，用来提取高维人脸特征。VGG-Face会把一张照片转换为一个4096维的向量，然后研究者用奇异值分解（SVD）降维到500维，在把这500维的值看成500个独立变量，与照片中人的性取向合起来建立了一个线性回归模型，以此作为预测分类器。

VGG-Face模型于2015年提出后得到广泛使用，但是该模型本意是用来确认不同图像里的对象是否为同一人，所以它对照片中表情、背景、光照等因素的敏感性较低。为了测试模型的泛化能力，研究者还做了一个反向验证，让模型分辨一个人是来自婚恋网站还是Facebook最终准确率只有53%，也说明了模型对人脸所处的环境并不敏感。

该研究发现，男性同性恋的脸更为女性化，女性同性恋的脸则有更强的肌肉感。同性恋的脸型上体现出的典型性别特征更少：对比于生成的“平均脸”，男性同性恋的下巴更窄、鼻子更长，女性同性恋则下巴更宽；男性同性恋面部的毛发更少、肤色更浅，女性同性恋则眼妆较淡、发色更深、衣服也更保守（更高的颈线）。

此外，总体上女性比男性更爱笑，但是女性同性恋就比女性异性恋笑得要少；在美国文化中棒球帽通常给人带来更有力量的感觉，所以男性中异性恋戴帽子更多，女性中则同性恋戴帽子更多。

此研究结果也遭到了质疑，特别是面部特征可能会因为低头还是抬头类似的角度问题发生改变。类似地，这些问题同样也存在于去年上海交通大学对外公布的“脸部识别技术辨别罪犯”研究中。

去年上半年，上海交通大学的武筱林教授和他的博士生张熙在《基于面部图像的自动犯罪概率推断》（Automated Inference on Criminality using Face Images）一文中描述了如何运用机器学习技术训练分类器，使其能够从普通人的照片中识别出犯罪者，准确率高达89%。而判断的三个主要依据是：嘴唇的弯曲程度、两只眼睛之间距离的大小和鼻尖和嘴角之间角度的大小。

在当时，这篇论文因存在缺陷被指“不负责任”，招惹的批评如潮。有网友指出该研究是不具备科学依据的，因为罪犯轻微的微笑，就会对照片上嘴巴的大小、嘴唇的形状产生影响，而这些影响，很有可能是罪犯在拍摄照片的时候，由摄影师的拍摄角度或惯性要求所产生的，而那些所谓的罪犯共性的面部特征很有可能是因为同一警察部门，采用同一摄影师或者采集的照片来自同一组拍摄所造成的，并不具有非常好的相关性。

也有分析指出，斯坦福研究中的分类器辨别的是固态（fixed）和瞬态（facial）面部特征，不仅包括面孔形态，还有表情、修饰风格等。有评论指出，斯坦福研究引入的VGG-Face DNN模型，能够进行纯粹的面部特征分离，不受面部表情、背景、光照、头部方向、图像属性（亮度、对比度）等因素的而影响，这能消除图片噪声带来的过拟合风险。换句话说，用VGG-Face模型得出的结论并不会因为上述问题而改变。

是研究面孔，还是研究毛发？

斯坦福研究引起舆论关注后，南洋理工大学认知心理学在读博士华沙在知乎上指出，除了统计上的谬误可能性外，上述研究者对通过VGG-Face模型训练出区分性取向这一方法得到的结果存在认知错误，训练的分类器并不是在寻找“性取向”特征点，而是区分了：一、荷尔蒙（雄、雌性激素）影响下的面孔特征；二、不同性取向者喜欢的发型、胡型以及妆容甚至眼镜等配饰。

有意思的是，这篇论文的两位研究者中，科辛斯基在剑桥大学获得心理学博士学位，后供职于微软研究院、剑桥大学，并有过创业经历；王轶伦现在的身份则是IDG资本驻旧金山湾区的投资顾问。华沙与两位研究者争论所在，从广泛意义上的视觉系与计算机系关注点不同，变成了针对研究本身的理论基础和判断方法的不同。

华沙指出，尽管研究者采集的照片具有多样性、生活化等特点，但是却没有保证控制性，即在针对同一对象中研究中，未能控制其他影响因素对研究结果可能造成的干扰。比如，分类器对男性面孔的辨别程度更高更清晰，其中一个原因是胡须在男性面孔上具有鲜明性：材质特殊，对比度稿，占据面积大。不同性取向者拥有不一样的蓄胡须的方式，在分类器进行判断时就可能起到主导地位。他表示，实际上此分类器较多地依靠发型、胡型以及妆容、配饰（例如眼镜）等进行判断，而不是本意想通过的面孔特征本身来。另外，由于研究者采集的照片对象都是白人，其中的教育水平这个因素未能得到有效控制。

而荷尔蒙这一点，近年也有研究提出了孕期的荷尔蒙水平会影响胎儿性取向的说法并被广泛接受，但是就斯坦福的研究而言，其根本问题在于研究者采用了间接证明的方法：发现荷尔蒙对于面孔形状的改变——借用理论“荷尔蒙和性取向相关”——推论得出性取向与面孔特征的关系。同时，此研究只是站在了“先天”激素、认为胎儿期的荷尔蒙水平会影响性取向的这个角度来推出结论，而选择性忽略了后天环境的影响。

除此之外，在斯坦福研究中，分类器只是检测出了被检测对象可能是同性恋的概率，但是判断的分界点即概率的数值设在什么地方（比如正确率超过50%就能说是同性恋？）才能确定被检测对象就是同性恋，仍然是未知的。

AI道德观，天生爱歧视？

“看脸知取向”还是“罪犯相面术”带来的争论，都说明这类型的人工智能在算法和技术方面仍存在进步的空间，还不能正式落地应用。在去年举办的全球首届AI选美大赛上，人工智能计算机收集了全世界年龄在18-69岁的自拍爱好者的照片并进行了评比，但结果却出乎意料。

虽然参赛者中来自印度和非洲的深色族裔不在少数，但是由于75%参赛者都是白人和欧洲人后裔，白人照片的集合决定了人工智能对照片中的人美还是不美的“客观”判断标准。人工智能默认了白皮肤的人比较好看，自动过滤掉了黑皮肤的照片，最终白人成为本次选美比赛的最大赢家。这一结果引起了社会的广泛不满。

对此，AI选美大赛的首席科学官Alex Zhavoronkov表示：“如果在采集的数据库中，没有足够多的不同肤色的数据，那么人工智能计算机机器人就会产生有偏见的结果。”同样，在谷歌的DeepDream实验中，谷歌的研究者通过开源数据库ImageNe训练算法，输出的结果却是不规则的碎片中夹杂着狗脸——因为ImageNe收藏了大量狗的照片，用来训练的图片也未能摆脱狗的身影。

“如果一个系统所接受的照片训练里，绝大部分都是白人，它就会难以辨别非白人的脸。”微软研究院首席研究员Kate Crawford表示，所以包容性很重要，从设计者到公司所有者，再到各种伦理视角，否则我们造出来的AI只会折射出一个狭隘的社会，带有各种陈旧偏见和刻板印象。”

无独有偶，斯坦福的这一研究被美国媒体报道后，两国两大LGBT人权团体Glaad、HRC发表了联合声明，对这份研究表达了质疑和抗议，认为这份报告“排除了那些非二元化（双性恋）的性别认同或者性取向”，忽略了LGBT族群巨大的差异性和多元化，取样选择也忽略了非白人、老人、双性人及其他不愿上传照片至约会网站的LGBT群体。抗议者直指这份研究是“垃圾科学”，表示它可能引向僵化的性向二元论并伤害同性恋及异性恋群体，甚至可能变成反同团体进行种族歧视的“武器”。

就目前来看，公众还不能确定下一次类似研究或大赛是否会使用更好的数据集，判断标准是否会更客观，结果是否会更叫舆论放心。看来，AI天生的“有色眼镜”短时间内是去不掉了。

本文为未来图灵（futureturing）独家文章，转载请申请授权并注明来源。

编译：杨羽婷