“Winona”Eigenface(Colorized),LabelledFacesintheWildDataset,
■
这篇文章写于年,惊奇的是,它精准的预料到了随后五年发生的有关技术视觉的噩梦。机器视觉的图景正在变得愈发活跃,“它从人眼分离,并变得不可见”,也不需要被我们看见。影像从一种肉眼的观测对象,逐渐变异成机器化/数字化权力的傀儡。这也意味着,我们急需对影像新的透彻理解,才能激发新的对抗强权的方式。也许,这篇文章就是这样一团星星之火。
VOL.2
InvisibleImages
(YourPicturesAreLookingatYou)
TrevorPaglen
■
我们的眼睛是血肉做的,从而导致了,在人类的大多数历史中,我们的视觉文化也是由有血有肉的实体构成的。图像的发展史基本就是颜料(或染料)、油料、丙烯、硝酸银和明胶的发展史。这些材料可以用来绘制洞穴、教堂的壁画或者应用在画布之上,我们也可以用它们来做照片或将图片打印在杂志上。在20世纪后半叶出现的基于荧幕的媒介,事实上与之前(实体的图像)并没有太多不同:人们通过阴极射线管和液晶显示器发出的光的色彩、形状以及密度的排列不同来感知形状。
我们对人类变化莫测视觉想象已经有了很好的认知:图像以蜿蜒地方式无孔不入地渗透和影响着我们的文化,它们悄悄地影响着我们对日常生活以及真相的理解,意味着,图像可被利用来服务或对抗强权。几个世纪以来,这些概念一直在帮助我们探索古典视觉文化的运作方式:表现(representation)、意义(meaning)、景观(spectacle)、符号学(semiosis)、模仿(mimesis)以及其他未提到的重要概念,它们统统是十分可靠的。
然而,在过去的十来年的时间里,一些戏剧性的情况发生了:视觉文化的形式发生了重大的改变。它已经从人眼分离,并在很大程度上变得不可见了。人类的视觉文化已经变成了视觉的特例,是自然界规则上的特例。现在,绝大多数的图像是由机器为了其他机器制作而成,人在生产和读取的环节中的占得比重越来越少。几乎没有人注意到,机器对机器(Machine-to-machine)『译者注:作者这里指“机器制造并由机器可见的循环,人类在其中几乎不占工作比例”,后文统一简称“机器对机器”不再解释。』的出现。而那些已经注意到这一生产结构正在我们的眼前悄悄地转变的人们,对它的意义也知之甚少。
TrevorPaglen在“Bloom”展览上的小作品,这一系列的肖像是通过创建所描绘的人的面部识别模型和产生多边形的程序,两个程序来回转动直到面部识别模型确定形象。
看不见的图像以及机器视觉(machinevision)的图景正在变得越来越活跃。它的持续扩张开始对人类生活产生深远的影响,这一影响甚至超过了20世纪中叶大众文化的兴起。图像已经开始介入了我们的日常生活,其功能已经从表现和中介(mediation)的功能『译者注:中介是一个社会学及人类学概念。图像作为符号工具可以成为将人类低级的心理机能转化为高级心理机能的中介工具』转变为激活(activations)、操纵(operations)和迫使(enforcement)。看不见的图像正在积极地注视着我们;戳、刺、牵引着我们的活动;造成痛苦或引起愉悦。但是这些都是很难被我们察觉到的。
长期以来,文化理论家一直怀疑、并试图论证数字化图像与曾经的视觉媒介的不同之处,但大多都束手无策。例如在上世纪90年代,数字化图像缺少“原始性”(original)就有许多有待商榷之处。再例如最近,社交媒体上图像的激增以及对其主体间性(inter-subjectivity)的影响亦成为了文化理论家以及批评家们大量讨论的话题焦点。但是,这些担忧仍然无法准确地说明我们现下所面临的问题。
一个问题在于,这些担忧仍然假设人类仍观看图像,并且人类观看者和图像之间的关系是最重要的分析焦点。但事实上,我所质疑地恰恰是人类是否仍是观看的主体。
数字化图像的出现,真正革命性的事实是它们基本上是机器可以读取的:而只有在特殊的情况下,人类才能在短时间内看到它们。例如用手机拍摄的照片会创建一个机器可读的文件,该文件不会以人眼可以感知的方式反射光。辅助应用程序,例如一个照片查看软件,与液晶屏还有背光灯联合工作创造出一个人类可以看到的版本。但是图像只在人类眼前存在极短的时间,在屏幕熄灭之后,它又会恢复成非图片状态的编码文件版本。这在功能上,与一卷未冲洗的胶卷是不同的,虽然,不使用化学显影的方法冲洗胶卷,胶卷无法转变为人类可以读取的形态。但是,一个未冲洗的胶卷亦无法被机器读取。
TrevorPaglen,“Bloom”
这些图像的颜色来自于机器学习算法,这些算法试图将图像分解成它们的组件(物体,纹理等等),不同的颜色是随意的,代表算法如何看待内部的相似之处和差异。
不管人类的主观意愿如何,数字化图像能被机器读取,这一事实实则具有巨大的意义。它可以实现视觉的大规模自动化,并且可以以前所未有的更大或者更小的尺度上来行使权力。
LakeTenaya,MaximallyStableExternalRegions;HoughTransform,
■■
我们人工建造的环境中充斥着机器对机器的装置示例:安装在警车、建筑物、桥梁、高速公路和私家车行车记录仪上自动车牌读取器(ALPR:AutomaticLicensePlateReaders)可以为进入它们视野的每辆汽车拍摄照片。而ALPR运营商(例如VigilantSolution公司)会收集他们采集到的每辆汽车的位置,使用光学字符识别系统(OCR:OpticalCharacterRecognition)来存贮车牌号,并创建由警察、保险公司等机构可以使用的大数据库。「作者注:JamesBridle的“HowBritainExportedNext-GenerationSurveillance”一文是介绍ALPR最棒的文章。」在消费场所,诸如EuclidAnalytics和RealEyes之类的公司,在购物中心和百货公司中安装摄像头,以此识别和监控不同类型的消费者在这些场所的运动轨迹,监测他们对什么样的商品看了多久,甚至,他们的软件可以追踪并分析这些消费者的面部表情和情绪状态。广告业也开始监视和记录人们。在工业领域,像Microscan这样的公司提供功能完善的成象系统,旨在标记工艺或者材料方面的缺陷,并可用来监视汽车、制药、电子零部件、包装和物流等公司。所有这些系统的可行性全部建立在“数字化图像是机器可读、分析并不需要人类参与”这一基础上的。
这种无形的视觉文化不仅限于工业运营、*府执法或者“智慧城市”,并且还远远入侵到了我们曾天真地以为仅限人与人(human-to-human)的视觉文化。我在这里指的是人类在数字化平台分享的数万亿张图像——那种乍一看似乎是人类为其他人类制作的图像。
从表面上看,像Facebook这种模拟美国战后发霉的胶粘相册的网络社交平台,我们在上面“共享”图片,然后看看有多少人给它们“点赞”并重新分类它们。在过去,人们将孩子的照片藏在钱包和皮夹里随身携带,或者将家庭的假日之旅制作成幻灯片仅仅分享给他们的朋友和熟人们看。有什么比炫耀自己的孩子这一愿望更加人性化的呢?设计用于数字化图像共享的界面,很大程度上模仿了这些个形式,从而为自拍、宝宝照片、猫和旅行照片创建了虚拟的“相册”。
不过这类类比有比较致命的误导性,因为当你在Facebook上分享照片这一行为,与你叨扰你邻居给他们展示投影幻灯片事实上有本质的区别。当你在Facebook或其他网络社交媒体上放置图片的一刹那,你会被置于一系列非常强大的人工智能算法系统之中,它们分析信息旨在识别图像信息中对象的位置、物体,人的习惯和偏好、种族、阶级、性别认同、经济状况等等。
不管是否有人可以真的看到每天上传到Facebook以及其旗下平台上20亿张图片的任意一张图片,社交媒体上的照片都受到神经网络的仔细审查,其专注程度甚至会让最专业的艺术史学家羞愧。Facebook于年开发并于年部署的“DeepFace”算法为每个人面部制作了三维抽象图,并使用神经网络去识别以及归档每个人的面部特征。其准确度可以达到97%以上,这个百分比基本是人类本身能达到的极限。但别忘了,没有任何一个人可以记住数十亿张面孔,哪怕一秒钟。
不仅仅是人脸,它们还能识别其他东西:Facebook的“DeepMask”和Google的TensorFlow可以识别人、地点、物体、环境、情绪、手势、表情、性别、经济状况、人际关系等等。
总而言之,人工智能系统已经熟练运用了人类的视觉文化并将其转化为一个巨大、灵活的训练场。Facebook和Google的人工智能系统能搜罗到的图像越多,它们就会变得越精准,并对人类的日常生活的影响愈大。数以万亿记的图像被我们送去训练这些个系统,并将它们视为我们人类对人类的文化,这是越来越多自主认知的基础。但这种观看图片的方式与我们过去的视觉文化几乎没有相似之处。
(左)“Goldfish”LinearClassifer,ImageNetDataset,
(右)“FireBoat”SyntheticHighActivation,ImageNetDataset,
■■■
如果我们窥视一眼机器视觉的内部工作原理,就会发现似乎与人类感知毫无关联的抽象幻想。机器对机器的工作景象与任何一种表现形式都不太接近,不如描述成激活与操作的形式。相较于传统的表现形式(classiciallyrepresentationalones),它由活跃的、表述行为的关系(performativerelations)构成。但这并不是说计算机视觉系统的运作就是一个空中楼阁。
所有计算机视觉系统都从它们正在分析的图像中提取出抽象的数学元素,并且抽象的程度取决于算法尝试读取的元素类型。例如,人脸识别通常涉及多种技术,具体取决于应用程序,所需的效率和可用的训练集(TrainingSets)。举一个较老的例子,特征面技术(TheEigenFace)可以分析某人的脸并从中减去与其他脸的共同特征,从而留下独特的脸部“指纹”或脸部“原型”。如要寻找某张特定的脸,该算法会直接定位其特定的脸部“指纹”。
一个主流图像人工智能训练集ImageNet中被标签化的图像(脸部遮挡由选用这个图片的艺术家和作者打上而不是训练集本身)
完整文章可以在