上图左侧,打了马赛克的图片有没有很熟习的觉得?

没错,他便是美国前总统巴拉克 · 奥巴马(Barack Obama)。
不是故意打码,而是有人把原图的分辨率降落了许多,以是看起来和打了码一样。

至于右侧的人像,是人工智能技能天生的。
它从打了码的奥巴马图像里探求像素规律,然后重新创造了不存在的人脸。

不知道你有没故意识到,这张 AI 天生的人脸,具有非常明显的白人男性特色,而原图中的奥巴马是个黑人。

AI算法参照奥巴马却生成白人面孔LeCun连发17条推文回答争议

这一问题不仅发生在奥巴马身上。
用相同的算法,把输入图片更换成亚裔女演员 Lucy Liu 或者西裔女议员 AOC(亚历山德里娅 · 奥卡西奥 - 科尔特斯),依旧天生了白人女性的人脸特色。

这些比拟照近日在推特上引发了舆论热议,就连 AI 大神 Yann LeCun 都卷入个中,被其他 AI 学者责怪“过于片面地理解 AI 公正性”,不得不连发 17 条推文阐述逻辑,仍旧未能完备服众。

人们的普遍担忧是:这些图片充分解释了人工智能技能带有偏见的危险性。

“是 StyleGAN 的演习数据有问题”

天生这些图像的程序利用了一种名为 PULSE 的算法,论文入选了 CVPR 2020 大会,背后的研究团队来自美国杜克大学。

该算法利用所谓的 “放大(upscaling)” 技能来处理视觉数据,也便是图片中的像素。
其事情事理类似于将低分辨率电影高清化——放大画面然后增强细节——不同的是,充斥着马赛克的图片短缺了很多像素细节。
因此 PULSE 算法必须借助机器学习技能来补充像素不敷的地方。

这就轮到其余一种算法出马了:英伟达的 StyleGAN。
对付很多人来说,StyleGAN 算法并不陌生。

一年前,一个名为 ThisPersonDoesNotExist 的网站溘然走红,每次刷新都可以让 AI 创造一幅人脸图片,很多图片看起来与真人照十分附近。
有些照片过于逼真,乃至被用来创建假的社交网站照片。

但实际上它们都是神经网络随机天生的,里面的人都是不存在的(至少我们认为是这样,保不齐 60 亿人里面有长得很像的)。

这个网站利用的最核心技能,便是 StyleGAN 算法。

这次的 PULSE 算法,进一步利用了 StyleGAN 的想象力。
与其考试测验放大和复原低分辨率的原图,它选择天生一个符合其像素分布规律的全新人脸,而且每次天生的都不一样。

必须强调的是,PULSE 算法不是复原原图,而是在识别像素规律的根本上重新构建一张全新的图片。

理论上,如果我们将新天生的人脸图片降落分辨率,重新打上马赛克,就会得到跟输入图差不多的样子,但不代表会与原图千篇一律。

图 | 论文也展示了 “低分辨率 -> 高分辨率 -> 低分辨率”的过程

在打算机视觉领域,类似的研究还有很多。
就像大多数人是通过 ThisPersonDoesNotExist 网站才知晓 SytleGAN 一样,这种研究只会在具备广泛传播载体的时候才会为更多人所知。
PULSE 恰好便是这个载体。

“看起来 PULSE 天生白人面孔的频率确实比其他有色人种高很多,这种偏见很可能是从 StyleGAN 演习时利用的数据集继续而来的,也可能存在我们不知道的其他成分,”算法的创建者在 GitHub 页面上写道。

换句话说,PULSE 算法的发明者认为,在脑补马赛克图片时,PULSE 依赖的是 StyleGAN 的想象力,而后者利用的演习数据集可能存在偏见,以是在给定一些像素框架后,它会默认想象出白人的脸部特色。

这种说法有一定的道理,其反响出的种族偏见问题也在其他机器学习运用中广泛涌现,比如一些面部识别算法在非白人和女性脸上表现较差,或者方向于把黑人识别为潜在高风险目标;一些语音识别系统更不随意马虎听懂非白人口音发出的指令。

不过也有质疑的声音存在。
AI 艺术家 Mario Klingemann 认为,这个问题该当归结于 PULSE 算法本身,在选择像素的逻辑上涌现了偏见,而不全是演习数据的问题。
Mario 强调自己可以利用 StyleGAN,从相同的低分辨率奥巴马图像中天生非白人特色的图片。

图 | 同样打了码的奥巴马,在只调度了特定参数的情形下,就天生了更多元化的人脸

“对付一张低分辨率图片来说,可能有数百万种高分辨率虚构人脸,都能缩略到相同的像素组合模式,”Mario 阐明称。

这就好比一道数学题可能有很多种解法,在每一种都能得出精确答案的情形下,选择哪种解法取决于做题的人。
如果 PULSE 更好地改进选择逻辑,就能避免或降落 StyleGAN 偏见的影响。

无论如何,PULSE 算法的输出图看起来是带有偏见的,而它的发明者——来自杜克大学的研究团队——彷佛在引发争议之前并未把稳到这一点。

这表明,在社会层面上,普遍存在另一种不同的偏见:将不正常的事情习以为常。
这种与肤色挂钩的偏见存在之广泛,乃至让一些研究团队和学者都忽略了它,使其隐蔽于 AI 的理论、框架和运用研究之中。

大神 LeCun 亲自了局对线

以 StyleGAN 和 PULSE 为例,究竟是 StyleGAN 演习数据集存在偏见(AI 框架)?还是 PULSE 的选择逻辑涌现了问题(AI 运用)?

最大的可能是两者都有。
有关这个话题的谈论,在舆论场引发了更大争议。

有名 AI 大牛,Facebook 首席 AI 科学家 Yann LeCun 在看到这些图片后回应:“数据有偏见,机器学习系统就会有偏见。
这个算法使每个人看起来都是白人,由于该网络在 FlickFaceHQ 上进行了预演习,里面大多是白人照片。
在塞内加尔的数据集上演习‘完备’相同的系统,每个人看起来都会像非洲人。

他又进一步补充称,“(办理这个问题的)重点是,机器学习工程师须要参与个中,而非机器学习研究者。
比较学术论文而言,更严重的问题是偏见存在于已经推出的产品中。

LeCun 举的例子说得通,但人们认为他的内在逻辑是:AI 研究者利用 “公正的” 数据集,就会避免机器学习系统有偏见(LeCun 后来澄清了自己没有这个意思)。

质疑他的学者认为,AI 的偏见不仅取决于丢失和优化函数的配置,还受到更广泛的社会不公道成分的影响,比如西方社会对有色人种的长期忽略,仅利用 “精确的” 或者 “公正的” 数据不能从根本上办理问题。
更何况,绝对公正的数据集也是很难实现的。

AI 任务制度研究职员 Deborah Raji 表示自己对 LeCun 的辞吐感到很惊异,认为这反响出纵然是行业中水平最高的人,也故意识上的掉队。

“LeCun 领导了一个工业实验室,致力于办理 AI 运用研究问题,并将其产品化,”Raji 强调,“我实在无法理解,他怎么能认为学术研究在建立 AI 规范时没有代价呢?”

LeCun 对此回应称,自己一贯致力于推动 AI 公正性和安全性的进步,而且“绝对没有,也永久不会说学术研究没有在建立规范化流程中发挥浸染”,乃至连暗示都未曾有过。
他也同时承认,AI 的偏见有很多种,须要采取不同的办理手段。

图 | LeCun 用了连续 17 条回答来阐述自己的逻辑,但仍旧不能完备肃清质疑

斯坦福 AI 实验室成员、Google AI 研究科学家 Timnit Gebru,对 LeCun 表示失落望,认为自己不值得花韶光跟 LeCun 辩论。

终极,或许是迫于压力,LeCun 发推向 Timnit Gebru 报歉,“我十分钦佩你在 AI 道德伦理和公正方面的事情。
我非常关心如何确保 AI 不会放大偏见,很抱歉我的谈论引发了这一话题事宜。

一个不容忽略的事实是,许多 AI 系统都是直接根据开源算法、框架和论文打造的,别说针对种族或性别成分进行调度,乃至连核心代码都不会修正几行。
这意味着,在研究阶段没能办理的偏见问题,会一贯隐蔽在很多 AI 系统的代码中。

从这个意义上讲,PULSE 算法暴露出的毛病其实在其他 AI 系统中广泛存在。

这一问题的办理方法,绝对不是修正代码或者利用公正数据集这么大略,而是须要 AI 百口当链从根本上改变思考模式,包括设计,开拓,实现和支配。

这个中的每一个环节,涉及到的每一个人和机构,乃至是终极真个普通消费者和用户,都须要重新思考:这个社会中普遍存在的征象,是不是习以为常的偏见。

不能由于大象已经在屋子里,就对它视而不见。