《利用视觉问题解答进行异常检测》美陆军实验室报告

异常检测对于许多不同的使用案例都至关重要，例如识别安全隐患以防止潜在灾难的发生。开发人类-机器人团队提出有针对性问题的能力对于快速识别违反协议的情况并迅速采取行动纠正这种情况至关重要。在本报告中，试验了如何利用视觉问题解答算法和一组精心设计的问题来检测虚拟制造空间和真实世界小巷中的异常情况。我们的探索结果表明，与随机基线相比，该算法的性能有所提高，还讨论了未来工作面临的挑战。

图 1 两种视觉刺激：虚拟创客空间（左）和现实世界的小巷（右）。向 VQA 提出的问题是 "灭火器周围是否有任何东西阻挡地面？"VQA 对两个刺激分别做出了 "是 "和 "否 "的正确回答。

由人类引导的机器人探索有助于在偏远地区收集信息，特别是那些由于危险条件或自然灾害而可能过于危险、荒凉或人类无法进入的地区。现场条件可能是未知的，而且在不断变化；因此，让机器人对不断变化的情况进行可视化监控和报告，将有助于人类伙伴决定机器人下一步应采取什么行动或进一步调查什么。当某一场景违反安全协议或预期时，具有自动检测功能的机器人或许能实现这一目标。

之前的研究已经在单个实体层面（如一块布料上的一个洞）、与特定任务相关的场景层面（如自动驾驶汽车的避障）和事件层面（如视频过程中的意外移动）对异常情况的检测进行了探索。我们将我们的工作置于场景层面，并在人类-机器人团队中加入了异常检测的互动元素。

在本报告中，我们围绕安全协议和随后的违规检测设计了一种视觉场景分析范例。我们收集有关特定领域预期（创客空间安全协议）的背景知识，然后向系统提出有关环境快照的问题，以评估其是否异常。我们的方法将视觉问题解答（VQA）算法的最新进展应用于视觉感官异常检测的重点研究。我们为研究确定了两组视觉刺激：一组是虚拟创客空间，我们操纵它违反我们策划的安全协议；另一组是现实世界中的小巷，它显示出异常的配置和属性。两个领域、问题和 VQA 答案如图 1 所示。

在这项工作中，提出了以下研究问题：提出有针对性的问题是否能比要求对图像进行一般描述（例如，从图像标题算法中）更准确地识别和评估视觉异常？

贡献如下： 1) 从安全协议中设计了异常分类，以指导环境设计和 VQA 算法的提问路线；2) 评估了最先进的 VQA 在非典型和非领域环境中的表现。在概念验证实验中，以 VQA 为目标的提问方法对创客空间图像中的异常情况的准确率达到了 70%，而使用标题生成和纯描述基线的随机性为 50%，准确率为 0%。讨论了通过提问来评估异常情况的潜力，并介绍了扩大测试规模的未来工作。

成为VIP会员查看完整内容