敬
摘要:
来自OpenAI的CLIP和DALL.E如同魔法设计师一样,从文本生成栩栩如生的图像的强大功能令人印象深刻。
文本提示:穿着芭蕾舞短裙的萝卜宝宝在遛狗。
AI生成的图像:
一位名叫Steves的网友表示,他在无意中发现了一些奇怪的趋势……
因为当Steves输入文本提示“pokemon”之后,由CLIP引导AI模型(DALL-EdVAE)生成了如下不堪入目的辣眼睛图像……
Steves注意到当给AI一个单独的单词时,它会开始崩溃,并且产生了像梦一样的特征。
AI生成的游戏王:
游戏王:
AI为何会把精灵宝可梦和luo体色情联系到一起?
有一位网友表示:“CLIP的训练集中肯定有NSFW材料(就此而言,还有Imagenet),一旦CLIP/DALL-E看到它就能识别。”(注:NSFW指不适合上班时间浏览)
官方证实CLIP的训练集中确实用到了Imagenet中的NSFW材料!!!
既然有这些图像存在,那想办法全部去除掉不就行了?
然而一位网友表示,可是这并不能阻止AI通过艺术品来学习luo体,然后将其与真实的人体相匹配。另外解剖学信息还将为其提供创建色情内容所需的信息。
“同样在您的示例中,某些结果看起来像泳衣。我猜测,AI或许能从“穿着衣服的人类图像”中学习到人类luo体的样子。”
有一位网友对此说出了一段比较哲学的话:
人为地遗漏数据会导致不可预知的偏差。例如,如果从来没有见过luo体的人类,那么AI将可能永远也不知道衣服是什么(它从哪里来?它对于人类是什么意义?要到哪里去?),并会产生奇怪的联想。
这也使得当AI遇到色情时,它也不可能被发现(如果AI都没学习过什么是luo体,你又怎么指望它去鉴别出luo体从而加以过滤禁止呢?)。
如果您不希望它产生某些图像,那么应该使用过滤器来过滤掉生成的图像,而不是阻止它生成这些图像。有一个notebook可以让您选择您不想看到的生成图像,因此这不是一个不可能的任务。
还有网友表示想要实现通用人工智能,AI必须得学习所有尽可能多的图像,哪怕是色情图像。
我们大致可以认为此事是由数据集带来的问题,而其实早在去年7月份的时候,麻省理工学院(MIT)已永久删除包含万张图像的TinyImages数据集。
此举是论文《Largeimagedatasets:Apyrrhicwinfor
而数据集带来的种族歧视问题这些年一起又一起,其中有名的一个例子就是Google图像识别算法把黑人识别成大猩猩……
Google当时迅速道歉并承诺整改。
可是到了年时,据《连线》杂志报道,谷歌并没有真的整改,只是直接懒省事去掉了“大猩猩(gorilla)”这个类别。
这样一来就再也不会有黑人群体被识别成大猩猩了。不过,大猩猩也不会有机会被认作大猩猩了,因为算法里没有大猩猩这个物种存在了。这和上面所说的“如果AI都没学习过什么是luo体,你又怎么指望它去鉴别出luo体从而加以过滤禁止呢?”是一个道理。
Google之后也承认了从图像识别的数据集标签中删掉了“大猩猩”一项,后来连“黑猩猩”也被屏蔽了。
利用人工智能程序自动判断种族、性别等歧视是个矛盾
因为如果我们要考虑制造一个AI系统来自动帮助我们判别某些图片是不是存在某种歧视,那么我们同样需要收集和利用这些有歧视的图片,可是在得不到本人允许的情况下我们又何以冠冕堂皇的利用这些图片来做成“典型"来告诉人工智能说:嗨AI,快看!这个就是XX歧视的图片,你可得“记住”哈!
AI这个令人糟心玩意儿,人类到底该拿你怎么办呢......
《人工智能大势》点评:
这篇文章再次揭示了对人工智能发展至关重要的两个问题:
首先,正如上一期《人工智能大势》(第67期)对同样是关于CLIP的文章《AI脑回路竟和人类如此相似,OpenAI最新研究引热议》点评所述,目前深度学习虽然具有了较好的相关性联想能力,但是缺乏对事物全面、深入的高级认知,因此常常会犯很多低级、弱智的错误。
实际上比相关性更高级的认知就是因果性,因为有了哪些因素以及这些因素的相对位置等才使得一张图像成为宝可梦或蜘蛛侠,不是有红色、蓝色就是蜘蛛侠,即哪些因素是关键因素。
但是,现在的主流人工智能理论和技术——深度学习还不能从相关性中提炼出因果性,也就导致了深度学习无法成为通用人工智能的候选项。那如何才能从相关性中学习到因果性呢?解决之道就是我们在上期文章中所说的“关系的关系”。
第二个问题就是人工智能犯了错,是不是就一删了之?
就如这篇文章所述,不希望人工智能弄出色情图片,就把它学习资料(数据集)里的色情图片都删掉;不希望它把黑人认成大猩猩,就把大猩猩的数据删掉,进而把黑猩猩也删掉,下一步是不是把猴子也删掉?
如果是这样,想必真正的人工智能是无法发展起来的,如文章说“如果AI都没学习过什么是luo体,你又怎么指望它去鉴别出luo体从而加以过滤禁止呢?”而如果连这样的事都做不了,又何以实现通用人工智能?
实际上,这是犯了“十全十美”错误,即认为机器必须完全不犯错才能使用。就如同很多人对待自动驾驶也是一样,必须绝对安全才能上路,那么自动驾驶也就永远不会上路。不仅如此,如果曾经是抱以这样的思维,想必汽车、飞机、电等等许多现代科技都不会被正式使用,而是一直呆在实验室中,因为这些东西到现在也没有做到绝对安全,每天死于车祸、触电的人不计其数,飞机也时有从天上掉下来,更不要说这些东西在使用的早期了。
再有就是西方过于*治正确,反种族歧视走火入魔了,这不仅将阻碍人工智能的发展,还会阻碍其它科技的发展,甚至阻碍经济、社会等整个国家的发展。希望我们中国不要学习这些看似“正确”,实则过分的举措。
任何事情都是有度的,极左、极右都不正确,我们当然不能放任色情、歧视自流而不管,但也不应太过谨小慎微,应该对人类自己有点信心,不至于如此脆弱。任何事物都是两面的,有利也有弊,要发展就会有牺牲,想一点损害都没有、绝对公平,同时又能高速发展,那只能是做梦。到底拿AI这个糟心的玩艺怎么办?老祖宗早就告诉我们了,两害相权取其轻,两利相权取其重。
这里我们尤其要小心的就是,不能因为纠正某个错误,而犯另一个错误,甚至是犯更大、更多的错误,就如文章一们网友说得好:“人为地遗漏数据会导致不可预知的偏差”。更不要说我们认为正确的伦理、道德是否就真的正确还是一个巨大的问号,人工智能之父——图灵因同性恋而遭受迫害至死,给我们带来的教训不可谓不惨痛、不深刻,所有研究人工智能的业界人士应不敢须臾忘却。
因此我们不应该将我们的伦理、道理强加到人工智能系统中,当然这并不是说人工智能就不讲伦理道德,正确的方法应该是让它们自己去实践中学习,我们给予一定的指导。这就像培养人类的孩子一样,不应奢望打开他们的头颅,把我们认为正确的东西直接放进去以保证他们永远不会忘记,而应该是一方面给予他们教导,另一方面,更重要的,是让他们自己去社会中学习,这样才能与时俱进,不至于将过时、错误的思想牢牢抓住不放。
正常的社会不是没有错误、缺陷的社会,而是对错误、缺陷有一定包容、又非无限包容的社会。
参考阅读:
大数据、人工智能vs歧视、偏见
图灵登上英镑新钞的最重要意义
人工智能需要“治理”吗?
《AI脑回路竟和人类如此相似,OpenAI最新研究引热议》