在互联网图片集上,神经网络在镜像翻转识别上取得了高达60%-80%的精度。作者着重分析了Instagram图片上的视觉手性现象。在不用随机剪裁(random cropping)时,神经网络在测试集上取得了高达92%的精度。然而因为有JPEG压缩失真的可能性存在(JPEG edge artifact一般出现于图片的边缘),作者同样使用随机剪裁进行了训练,并仍旧取得了高达80%的精度。考虑到大量Instagram图片有配文字,而文字是最明显的视觉手性现象,作者用文字识别器滤除了Instagram中含有文字的图片重新进行了训练,但仍旧在测试集上取得了74%的高精度。值得一提的是这些训练出来的模型具有一定程度的泛化能力,可以不经训练,在其他的互联网图片集(Flickr F100M)上取得高于50%的精度。作者在Instagram图片集上进行了手性特征聚类,并挑选了一系列与我们生活相关的典型视觉手性现象进行讨论。1、手机对着镜子自拍是人们最爱做的事。此类照片具有视觉手性,因为手机的摄像头一般固定在手机背面的一侧(因品牌而异),同时由于多数人是右撇子,一般都以右手持手机进行自拍。 2、吉他几乎大多数的吉他手都以右手拨弦,左手持把。3、手表手表一般都被带在人们的左手侧。4、男士衬衫领子男士衬衫的扣子一般处于右侧。5、上衣口袋正装上衣的口袋几乎无一例外处于身体左侧,为了更好地服务于占大多数的右撇子。6、人脸更令人吃惊的是,类激活映射方法在大量的人脸上出现了较强的反应,说明人脸中视觉手性的存在。多数情况下人脸通常被认为是对称的:此届CVPR 2020另一篇best student paper(Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images in the Wild)更是将人脸视为了轴心对称的物体,并以此为线索来进行3D重建。需要强调的一点是,这些视觉手性现象在每张图片中看似孤立,但神经网络仍有可能会利用多种不同的线索来对图片是否翻转进行判断。为了深入了解人脸的视觉手性现象,作者在人脸数据集上进行了孤立训练。作者在Flickr-Faces-HQ (FFHQ)人脸数据集上进行了训练,并在测试集上取得了高达81%的精度,并利用手性特征聚类对人脸中的视觉手性现象进行了初步的探讨:1)刘海分界处人们一般用右手来分理刘海,这会导致刘海的朝向向一侧偏移,并出现视觉手性现象。2)眼睛人们在看向物体时倾向于用一只主视眼进行瞄准,这样会导致人们的目光在进行拍摄时出现偏移。多数人的主视眼为右眼,而这一现象可能是导致视觉手性现象的成因。3)胡子与头发一样,可能与人们习惯于用右手理胡子有关。作者提到,文中对以上的视觉手性现象的讨论均为初步的分析,而人脸中仍有大量的视觉手性线索值得被发掘。