大数据文摘授权转载自AI科技评论
作者:耳洞打三金
大家好我是三金,想必大家都知道,来自OpenAI的CLIP和DALL.E如同魔法设计师一样,从文本生成栩栩如生的图像的强大功能令人印象深刻。
文本提示:穿着芭蕾舞短裙的萝卜宝宝在遛狗。
AI生成的图像:
然而就在今日,三金我上班摸鱼的时候,发现Reddit上一位名叫Steves的网友表示,他在无意中发现了一些奇怪的趋势,似乎表明OpenAI接受了色情内容图像和版权材料(copyrightedmaterial)的数据集训练——
CLIP和DALL.E似乎把口袋妖怪/精灵宝可梦(pokemon)和色情图像(porn)混淆了!
因为当Steves输入文本提示“pokemon”之后,由CLIP引导AI模型(DALL-EdVAE)生成了如下不堪入目的辣眼睛图像--前方高能,NSFW警告!!!
AI生成的精灵宝可梦图像一:
注:原图可能引起不适,现已打马赛克AI生成的精灵宝可梦图像二:
注:原图可能引起不适,现已打马赛克
(注: NSFW是一个英文网络用语,“NotSafeForWork”或者“NotSuitableForWork”的缩写,意思就是某个网络内容不适合上班时间浏览。它通常被用于标记那些带有淫秽色情、暴力血腥、极端另类等内容的邮件、视频、博客、论坛帖子等,以免读者不恰当的点击浏览。)
上面这些到底是生成了个啥?真是不可描述、令人不忍直视......
然而三金我可是知道精灵宝可梦应有的样子应该是下面这样萌萌哒的:
Steves之后问道:
“有没有其他人在使用CLIP和DALL-E时遇到过这样的事?
我也看到了一个关于罂粟被检测为贵宾犬的公开问题,但我还没有进行探究。”
那么这究竟是怎么一回事呢?
Steves为此专门写了一个博客介绍此事,原来他是看到DALL.E之后,对之产生了极大的兴趣,他最近一直都在玩CLIP和DALL-E,并且用的是推特网
advadnoun分享在colab上的代码,该代码基于DALL-E的解码器和CLIP从文本生成图像的。colab链接: