视觉语言模型(VLMs)最近已经展示出了强大的效能,作为可以解析关于视觉内容的自然查询并生成类似人类输出的视觉助手。在这项工作中,我们探讨了这些模型基于感知信息展示人类式推理的能力。为了解决一个关键问题,即这些推理能力在多大程度上是完全一致和基于实际的,我们还测量了这些模型的推理一致性。我们通过提出基于思维链(CoT)的一致性度量来实现这一点。然而,这样的评估需要一个包括高级推理和详细推理链的基准,这是昂贵的。我们通过提出一个LLM-人在回路中的管道来解决这一挑战,这显著降低了成本,同时确保了高质量数据集的生成。基于这个管道和现有的粗粒度注释数据集,我们构建了CURE基准,以测量VLMs的零样本推理性能和一致性。我们评估了现有的最先进的VLMs,并发现即使在表现最佳的模型(BLIP-2)的情况下,也无法展示出强大的视觉推理能力和一致性,这表明需要大力努力,使VLMs能够像人类一样系统地和一致地进行视觉推理。作为早期步骤,我们提出了一个旨在提高VLMs的推理性能和一致性的两阶段培训框架。第一阶段涉及使用由LLMs自动生成的逐步推理样本对VLMs进行监督微调。在第二阶段中,我们进一步通过LLMs提供的反馈来增强训练过程,以生成高度一致和基于实际的推理链。我们经验性地突出了我们框架的有效性,并显示了在推理性能和一致性方面的相对改进为4%。

https://www.zhuanzhi.ai/paper/7973da2bc3cb888154e7d2c0ed548c64

成为VIP会员查看完整内容
50

相关内容

【CMU博士论文】以人为中心的机器学习:统计和算法视角
专知会员服务
39+阅读 · 2023年10月1日
【普林斯顿】基于大型语言模型的语言智能体认知架构
专知会员服务
69+阅读 · 2023年9月6日
【NeurIPS2022】基于结构聚类的自监督异构图预训练
专知会员服务
23+阅读 · 2022年10月20日
【伯克利博士论文】学习跨领域的可迁移表示
专知会员服务
46+阅读 · 2022年8月17日
【干货书】可解释人工智能(xAI)方法和深度元学习模型
专知会员服务
58+阅读 · 2020年9月13日
论文浅尝 | 采用多层注意力机制的事件检测
开放知识图谱
23+阅读 · 2019年8月24日
多模态多任务学习新论文
专知
46+阅读 · 2019年2月9日
【机器学习】深入剖析机器学习中的统计思想
产业智能官
14+阅读 · 2019年1月24日
深度学习超参数搜索实用指南
云栖社区
28+阅读 · 2018年10月14日
论文浅尝 | 基于神经网络的知识推理
开放知识图谱
14+阅读 · 2018年3月12日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
27+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
Arxiv
158+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
408+阅读 · 2023年3月31日
Arxiv
68+阅读 · 2023年3月26日
Arxiv
148+阅读 · 2023年3月24日
VIP会员
相关基金
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
27+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员