大猩猩

注册

 

发新话题 回复该主题

被偏见感染的算法 [复制链接]

1#
算法时常带有偏见。比如人脸识别的算法识别男性就比女性准确率更高,甚至还出现过把黑人识别成大猩猩的情况。最近两位谷歌公司的伦理科学家因为关于算法偏见的争议,先后离职。有科学家说,“世界上有些人世世代代都在遭受歧视和边缘化,而技术又在此基础上添砖加瓦”。“歧视”本身是人类社会一直没有解决的问题,算法的出现不过是将问题继续延续,甚至变形。那人类要如何教会算法公平?是不是能够提出相对公平的原则来训练和使用算法?本期北小河FM从谷歌裁员风波聊起,谈了谈偏见可能给普通人带来哪些利益损害,以及在谈论“算法公平”时,差距、偏见、公平这些概念的复杂关系。你听了之后是否会有自己的思考和观点?欢迎留言告诉我们。刘都统有点资深的科技记者凌梓郡科技记者00:13一篇论文,引发谷歌AI伦理团队两位领导人离职03:18算法偏见的例子08:04现实世界本身就存在差异,到算法就构成“偏见”吗?15:05技术在加剧偏见吗?17:49算法偏见可能伤害到普通人的利益24:19“公平”在算法中很难定义凌梓郡刘都统王立冰BERT:谷歌在年发布的用于自然语言处理(NLP)的预训练技术。发布时,它在许多自然语言理解任务上取得了最先进的表现。年10月,谷歌表示,几乎每一次英语查询都会用到BERT。蒂姆尼特·格布鲁(TimnitGebru):计算机科学家。研究专注于算法偏差和数据挖掘,倡导技术多样性,也是人工智能黑人研究团体BlackinAI的创始人之一。年底加入谷歌,担任伦理人工智能团队技术联合主管。年12月因为一篇谈论大型语言模型的风险论文而离职。论文的名字叫做《随机鹦鹉的危险:语言模型是否太大了?》(OntheDangersofStochasticParrots:CanLanguageModelsBeTooBig)玛格丽特·米切尔(MargaretMitchell):计算机科学家。与格布鲁共同创立并领导了谷歌伦理人工智能团队,直到年2月被解雇。在被解雇前,她被谷歌进行了为期五周的调查,谷歌表示她违反了公司的行为准则和安全*策。刘都统:谷歌伦理团队的创始人玛格丽特·米切尔被炒鱿鱼了。2月20号的时候,她在推特上发了一个简短的声明:我被炒了。她的前任也被谷歌给炒了,这两个人先后都是谷歌伦理团队的负责人,并且对谷歌算法提出了一系列批评。米切尔被炒其实是其前任的余波,前任叫蒂姆尼特·格布鲁,之前也是AI伦理部门的联合负责人。她之前发了一篇论文,批评了谷歌在语言算法上的一些歧视性的问题,在论文是否发表的意见上和上层发生了分歧。凌梓郡:这个事情在我看来是研究AI伦理的科学家和科技大公司之间的矛盾越来越明显的一个例证。刘都统:至少现在从双方的发言,以及外界的评论来看,更多倾向于把这两位研究员置于正义的一方,把谷歌置于一个反面角色。现在没有定论,大概形成的刻板印象是谷歌为了种种原因打压AI伦理的一些批评建议。凌梓郡:那篇论文名为《随机鹦鹉的危险,语言模型是否太大了?》,主要讲的是谷歌的语言模型BERT越来越大会带来的负面影响,第一点是大型的语言模型训练会带来很多碳排放;第二点是语言模型通过抓取网络上的数据来进行训练,导致人工智能被培养出了性别偏见或者种族主义的观念。刘都统:有没有一些现实的例子,可以让大家感知一下在现实生活中这个东西到底可以产生怎样的歧视。凌梓郡:警方使用人脸识别系统抓捕嫌疑犯。目前在美国已经有至少三个例子关于黑人这样的少数族裔,因为算法原因被错误逮捕。其中一个人在警察局里滞留了30个小时。因此现在有比较强烈的呼吁,认为不能够让人脸识别的算法被执法机关使用。因为相关的偏见一旦扩大就很严重。刘都统:其实格布鲁以前就是研究算法偏见的,然后谷歌又把她招进来,招进来后,她发现谷歌的算法也有偏见,然后就开始对谷歌的算法提出一些意见,然后谷歌把她给开了。我还看到一个有意思的事情,在年的时候,谷歌相册把两个深肤色的人标记成了大猩猩。谷歌公司当时保证立即采取措施,防止再犯同样的错误。过了一段时间之后就说这件事情已经解决了,后来《连线》杂志在谷歌上测试了4万多张动物的图片,得出了一个非常有意思的结论:谷歌不再将任何的图片标记为大猩猩、黑猩猩、猴子。也就是说修改是很机械化的,只是告诉这个机器以后不管什么东西都不能给它打上大猩猩的标签。凌梓郡:业内都知道的一个算法偏见是识别准确率最高的是白人男性,相反,识别准确率最低的就是深肤色的女性。年格布鲁和另外一位少数族裔科学家做了研究,对这些算法做测试,发现准确率的差距能到30%。把黑白去掉,直接从性别来看,算法准确率的差距能达到百分之十几至百分之二十。这可能是因为训练数据集当中男性的数据集更好、质量更高。刘都统:我看了一个例子,谷歌旗下的计算机服务叫Googlevisioncloud,会将深肤色手中拿着的额温枪标记成枪。而在相同的条件之下,如果是一个浅肤色手,就把额温枪标记成一个电子设备。究其原因,这跟深肤色人员的图像在数据训练的时候,总是能跟暴力场景给联系起来,所以这个机器训练久了,同样的动作,一个黑人做,一个白人做,就会把黑人的图像更多联系到暴力上。凌梓郡:现实生活中大家也会说,为什么凡是暴力场景中黑人出现的就更多,无论是在流行文化或者一些可见的材料中。这是我们对黑人的刻板印象,还是黑人群体本身暴力更多发?刘都统:在我看到的数据里边,黑人的犯罪率就是比别人高,所以你给机器的数据也是一个反映现实的数据。现实的数据就是这个样子,去训练了一个机器,这叫偏见吗?难道一定要去消除掉这种现实的状况?给它一个虚拟的数据,这才不叫偏见?凌梓郡:取决于你怎么用这个算法。比如说黑人的犯罪率是比白人高,这是一个事实。但是不能因为这个事实让那些并非是犯罪的黑人,天生带着这种肤色的黑人,就要接受更多的质疑。刘都统:这个我认同。因为按照无罪推定原则,也不能上来就把一个人置于到这么一个境地去审视。格布鲁在论文里提出了两方面的问题,第一是这一系列的人工智能研究,会产生大量的碳排放的问题。第二个就是你的算法还涉嫌到歧视。从现在的情况来看,谷歌开除她不是因为碳排放,更多的是因为算法偏见。刚才我们说了这么多,我现在非常想知道的是别的公司有这种情况吗?还是只有谷歌公司有这种偏见?凌梓郡:格布鲁在年研究涉及到微软、旷世、IBM三家的人脸识别算法,发现偏见是普遍存在的。第二个员工解雇之后,谷歌有一些员工也提供了相关的内部消息,谷歌内部会对这些研究论文提意见,希望不要进行技术上的批评。这就是内部在对学术研究进行审查。刘都统:我想知道这么多的互联网公司,尤其是在从事人工智能研究的,他们的算法都存在这样或那样的偏见的问题。为什么会这样?这个问题是难以解决,还是不想解决?凌梓郡:我问你一个问题,是技术在加剧我们世界的偏见,还是说我们世界原来就有偏见,只是技术把它显现出来了?刘都统:倾向于后者。凌梓郡:如果是后者的话,这就是个难以解决的问题,就是我们的世界本来就存在这么多偏见。这么多年了,偏见一直都很难被解决,我们开发了一个技术,可能这个技术就带有我们这个世界本身的一些属性。但是技术层面的纠正,我觉得有价值。比如去开发更公平的算法,本身就是在现实世界去纠正偏见的一个部分。刘都统:我还看到一种说法,就是想让算法做到公平是一件几乎不可能的事情,因为公平本身就是一个非常难定义的词汇。定义不出来,你就没有办法让机器去做到。因为其实在现实生活中也是这样,往往那些非常容易判断公不公平的事情,往往是黑白分明的。凌梓郡:这涉及对这个世界公平的基本认知。我的观念是,这个世界中的偏见是无处不在的。这个偏见什么时候构成歧视,需要我们通过一些手段强行去规范它,这就是我们要处理的问题。有一个很好玩的例子是苹果公司的联合创始人斯蒂夫·霍斯尼亚克,他在社交媒体上表示,苹果信用卡给他的信用额度是他夫人的10倍,但是他们两个并没有什么单独的银行账户或者个人资产,那算法是怎么得出这种结论的呢?去设想如果未来算法的用途非常广泛,可能在面试时对你的行为做评估,或者是对你的信用额度做评估。算法里这种细微的偏见,可能就会给个人利益带来损害。现在再去看这件事情,当时谷歌主动成立了AI伦理委员会,聘请科学家,也是为了追求技术的公平,至少表面上本来双方是站在同一阵营的,最终还是闹掰了。你能看出这不只是一件学界的事情,其实是变成了一个现实世界中人们的利益纠纷。刘都统:我觉得在技术上很难达到。可以想象一下,首先刚才提出来的一个问题就是公平本来就很难定义,你去再训练一个算法,从现实世界中抓取大数据去训练它,怎么对这个数据进行筛选。如果你强行定义一个标准,这个标准也是某个人或者某一小撮人定义出来的标准。如果这个标准没有办法达到,肯定在某些边边角角,也就是会对边缘群体产生影响。凌梓郡:我觉得可以有一些基本的共识。广义的公平,当然没有办法做到。是不是有一些可实现的阶段性目标,比如人脸识别对于不同肤色的人,或者不同性别的人,准确率是否一致。刘都统:还有一个问题我也没有想明白,我们在用现实的数据去训练机器、训练一个算法的时候,我们是想让人工智能这套算法形成对现实世界的真实感知,还是把它变成我们理想中的算法。比如我们现实中存在各种各样好的地方不好的地方,可能某个群体犯罪率高,某个群体的犯罪率低,你去网上把数据拉出来,会发现他们之间在这些数据上是有差异的。我们是想让算法确切知道这种差异的存在,还是想把它培养成一个忽略这些数据,彼此之间都没有差异的算法。凌梓郡:我觉得忽略差异和歧视是两码事。比如还有一个例子,就是在年,Facebook将一名巴勒斯坦男子的贴子翻译错了,他的原帖子就是用阿拉伯语写了一个“早晨好”,而机器将他的发言翻译成了希伯来语的“攻击他们”,这可能就是训练的时候阿拉伯语的语料里有更多关于暴力的内容。这可能是算法的缺陷,但是在现实生活场景中,它可能会造成非常严重的后果。刘都统:第一,到底如何来定义公平,或者说在算法里边能定义公平吗?第二个就是去训练算法的时候,是以现实世界最真实的东西去训练它,还是以一个理想的美好东西去训练它。第三就是如果你倾向于用现实实际的数据去训练它,自然而然就像教育小孩一样,它会产生偏见。你怎么去克服和去规范它?这三个问题,现在科学家应该也是没有解决的,更不用说我们两个人了,只是说来引发这么一个讨论。推荐您使用Apple播客、小宇宙APP、喜马拉雅和网易云音乐,搜索“北小河FM”收听我们。此外,您还可以下载全现在APP,在订阅我们的同时,获取更多深度资讯。如果您想在任何泛用型播客找到我们,除了搜索“北小河FM”,还可以通过复制我们的RSS地址,在相关播客平台完成订阅。RSS
分享 转发
TOP
发新话题 回复该主题