MIT研究揭示人类和人工智能如何看到不存在的面孔
1994年,佛罗里达州的珠宝设计师Diana Duyser在一个烤奶酪三明治上发现了她认为是圣母玛利亚的图像,她将其保存下来,后来以28,000美元的价格拍卖。但我们对拟视觉现象(pareidolia)——即在实际不存在的物体中看到面孔和图案的现象——了解多少呢?
麻省理工学院计算机科学与人工智能实验室(CSAIL)的一项新研究深入探讨了这一现象,引入了一个包含5,000张拟视觉图像的大型人工标注数据集,远超以往的收集。利用这个数据集,研究团队发现了几个关于人类和机器感知差异的令人惊讶的结果,以及"在面包片上看到面孔"的能力如何可能拯救了你远古亲戚的生命。
"面部拟视觉现象长期以来一直令心理学家着迷,但在计算机视觉领域却鲜有探索,"该项目的首席研究员、麻省理工学院电气工程和计算机科学博士生、CSAIL附属研究员Mark Hamilton说。"我们想创建一个资源,帮助我们理解人类和人工智能系统如何处理这些虚幻的面孔。"
那么,所有这些虚假面孔揭示了什么?首先,人工智能模型似乎无法像我们一样识别拟视觉面孔。令人惊讶的是,研究团队发现,直到他们训练算法识别动物面孔时,它们才在检测拟视觉面孔方面变得明显更好。这种意外的联系暗示了我们识别动物面孔的能力(对生存至关重要)与我们倾向于在无生命物体中看到面孔之间可能存在进化联系。Hamilton说:"这样的结果似乎表明,拟视觉现象可能不是源于人类的社会行为,而是来自更深层次的东西:比如快速发现潜伏的老虎,或识别鹿在看哪个方向,以便我们的原始祖先能够狩猎。"
另一个有趣的发现是研究人员称之为"拟视觉现象的黄金地带",这是一类最可能发生拟视觉现象的图像。"有一个特定的视觉复杂度范围,在这个范围内,人类和机器最有可能在非面部物体中感知到面孔,"该项目的首席研究员、麻省理工学院电气工程和计算机科学教授William T. Freeman说。"太简单了,就没有足够的细节形成面孔。太复杂了,就变成了视觉噪音。"
为了揭示这一点,研究团队开发了一个方程,模拟人们和算法如何检测虚幻的面孔。在分析这个方程时,他们发现了一个清晰的"拟视觉峰值",在这个峰值处看到面孔的可能性最高,对应于具有"恰到好处"复杂度的图像。这个预测的"黄金地带"随后在真实人类受试者和人工智能人脸检测系统的测试中得到了验证。
这个新数据集"物体中的面孔"(Faces in Things)远远超过了以往研究通常使用的20-30个刺激物。这种规模允许研究人员探索最先进的人脸检测算法在对拟视觉面孔进行微调后的行为,显示这些算法不仅可以被编辑以检测这些面孔,而且还可以充当我们大脑的硅替代品,使团队能够提出和回答关于拟视觉面孔检测起源的问题,这些问题在人类身上是不可能问的。
为了构建这个数据集,研究团队从LAION-5B数据集中精心挑选了大约20,000张候选图像,然后由人类注释者进行仔细标记和判断。这个过程包括在感知到的面孔周围画出边界框,并回答关于每个面孔的详细问题,如感知到的情绪、年龄以及面孔是偶然的还是故意的。Hamilton说:"收集和注释数千张图像是一项艰巨的任务。数据集的大部分存在都要归功于我的母亲,"她是一位退休的银行家,"她花了无数小时精心标注图像供我们分析。"
这项研究还有可能应用于改进人脸检测系统,减少误报,这可能对自动驾驶汽车、人机交互和机器人技术等领域产生影响。该数据集和模型还可以帮助产品设计等领域,在这些领域中,理解和控制拟视觉现象可以创造出更好的产品。Hamilton说:"想象一下,能够自动调整汽车或儿童玩具的设计,使其看起来更友好,或确保医疗设备不会无意中显得具有威胁性。"
"人类本能地将无生命物体解释为具有人类特征是一件很有趣的事情。例如,当你瞥见一个电源插座时,你可能立即想象它在唱歌,你甚至可以想象它会如何'动嘴唇'。然而,算法并不像我们那样自然地识别这些卡通般的面孔,"Hamilton说。"这引发了一些有趣的问题:是什么导致了人类感知和算法解释之间的这种差异?拟视觉现象是有益还是有害的?为什么算法不像我们一样经历这种效应?这些问题引发了我们的调查,因为这种人类经典的心理现象在算法中还没有被彻底探索。"
随着研究人员准备与科学界分享他们的数据集,他们已经在展望未来。未来的工作可能涉及训练视觉-语言模型来理解和描述拟视觉面孔,可能会导致人工智能系统以更接近人类的方式与视觉刺激互动。
加州理工学院Allen E. Puckett电气工程教授Pietro Perona(未参与这项工作)说:"这是一篇令人愉快的论文!读起来很有趣,让我思考。Hamilton等人提出了一个引人入胜的问题:为什么我们会在物体中看到面孔?正如他们指出的,从例子中学习,包括动物面孔,只能解释一半的现象。我打赌,思考这个问题将会教会我们一些关于我们的视觉系统如何超越生活中接受的训练而泛化的重要东西。"
Hamilton和Freeman的合著者包括丰田研究所的高级研究科学家Simon Stent、脑科学和认知科学系的首席研究科学家Ruth Rosenholtz(NVIDIA研究科学家,前CSAIL成员)、以及CSAIL附属的博士后Vasha DuTell、Anne Harrington MEng '23和研究科学家Jennifer Corbett。他们的工作部分得到了国家科学基金会和CSAIL MEnTorEd机会研究(METEOR)奖学金的支持,同时由美国空军研究实验室和美国空军人工智能加速器赞助。MIT SuperCloud和林肯实验室超级计算中心为研究人员的结果提供了高性能计算资源。
这项工作本周正在欧洲计算机视觉会议上展示。
转载自:MIT news
原文地址: MIT news
评论区