Procedural mistake detection (PMD) is a challenging problem of classifying whether a human user (observed through egocentric video) has successfully executed a task (specified by a procedural text). Despite significant recent efforts, machine performance in the wild remains nonviable, and the reasoning processes underlying this performance are opaque. As such, we extend PMD to require generating visual self-dialog rationales to inform decisions. Given the impressive, mature image understanding capabilities observed in recent vision-and-language models (VLMs), we curate a suitable benchmark dataset for PMD based on individual frames. As our reformulation enables unprecedented transparency, we leverage a natural language inference (NLI) model to formulate two automated metrics for the coherence of generated rationales. We establish baselines for this reframed task, showing that VLMs struggle off-the-shelf, but with some trade-offs, their accuracy, coherence, and efficiency can be improved by incorporating these metrics into common inference and fine-tuning methods. Lastly, our multi-faceted metrics visualize common outcomes, highlighting areas for further improvement.


翻译:程序性错误检测(PMD)是一项具有挑战性的任务,旨在通过第一人称视角视频观察人类用户是否成功执行了由程序性文本指定的任务。尽管近期已有大量研究,但机器在真实场景中的表现仍不可行,且其推理过程不透明。为此,我们将PMD扩展为要求生成视觉自对话推理以支持决策。鉴于近期视觉-语言模型(VLMs)展现出令人印象深刻且成熟的图像理解能力,我们基于单帧图像构建了一个适用于PMD的基准数据集。由于我们的重构实现了前所未有的透明度,我们利用自然语言推理(NLI)模型制定了两个自动化指标,用于评估生成推理的连贯性。我们为这一重构任务建立了基线,结果表明VLMs在未经调整时表现不佳,但通过权衡,将上述指标融入常见的推理和微调方法中,可以提升其准确性、连贯性和效率。最后,我们的多维度指标可视化常见结果,突出了需要进一步改进的领域。

0
下载
关闭预览

相关内容

【ICML2023】多任务分层对抗逆强化学习
专知会员服务
22+阅读 · 2023年5月25日
MNIST入门:贝叶斯方法
Python程序员
23+阅读 · 2017年7月3日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Arxiv
0+阅读 · 12月15日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员