本文提出MM-REACT,一种将ChatGPT与视觉专家池集成的系统范式,以实现多模态推理和行动。本文定义并探索了一个高级视觉任务的全面列表,这些任务令人感兴趣地解决,但可能超过现有的视觉和视觉-语言模型的能力。为了实现这种先进的视觉智能,MM-REACT引入了一个文本提示设计,可以表示文本描述、文本化空间坐标和密集视觉信号(如图像和视频)的对齐文件名。MMREACT的提示符设计允许语言模型接受、关联和处理多模态信息,从而促进ChatGPT和各种视觉专家的协同结合。零样本实验证明了MM-REACT在解决兴趣的特定能力方面的有效性,以及在需要高级视觉理解的不同场景中的广泛应用。讨论和比较了MM-REACT的系统范式与一种通过联合微调为多模态场景扩展语言模型的替代方法。代码、演示、视频和可视化可在https://multimodal-react.github.io/上获得。

成为VIP会员查看完整内容
33

相关内容

ChatGPT有什么用? 论大语言模型在教育中的机遇与挑战
专知会员服务
76+阅读 · 2023年2月15日
AIGC的技术发展和应用:ChatGPT,20页pdf
专知会员服务
172+阅读 · 2023年2月13日
自然语言处理常识推理综述论文,60页pdf
专知
73+阅读 · 2019年4月4日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
4+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2023年5月10日
A Survey of Large Language Models
Arxiv
408+阅读 · 2023年3月31日
Arxiv
10+阅读 · 2018年3月22日
VIP会员
相关主题
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
4+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员