MM-REACT:提示ChatGPT进行多模态推理和行动 - 专知VIP

会员服务 ·

19

2023 年 3 月 26 日

MM-REACT:提示ChatGPT进行多模态推理和行动

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

本文提出MM-REACT，一种将ChatGPT与视觉专家池集成的系统范式，以实现多模态推理和行动。本文定义并探索了一个高级视觉任务的全面列表，这些任务令人感兴趣地解决，但可能超过现有的视觉和视觉-语言模型的能力。为了实现这种先进的视觉智能，MM-REACT引入了一个文本提示设计，可以表示文本描述、文本化空间坐标和密集视觉信号(如图像和视频)的对齐文件名。MMREACT的提示符设计允许语言模型接受、关联和处理多模态信息，从而促进ChatGPT和各种视觉专家的协同结合。零样本实验证明了MM-REACT在解决兴趣的特定能力方面的有效性，以及在需要高级视觉理解的不同场景中的广泛应用。讨论和比较了MM-REACT的系统范式与一种通过联合微调为多模态场景扩展语言模型的替代方法。代码、演示、视频和可视化可在https://multimodal-react.github.io/上获得。

成为VIP会员查看完整内容

34

相关内容

【CVPR2023】Vita-CLIP:通过多模态提示的视频和文本自适应CLIP

【CVPR2023】Vita-CLIP:通过多模态提示的视频和文本自适应CLIP

专知会员服务

40+阅读 · 2023年4月11日

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

专知会员服务

103+阅读 · 2023年4月7日

ChatGPT背后的指令学习是什么？PSU最新首篇《指令学习》技术全面综述，详述指令学习关键问题

ChatGPT背后的指令学习是什么？PSU最新首篇《指令学习》技术全面综述，详述指令学习关键问题

专知会员服务

100+阅读 · 2023年3月27日

【ChatGPT系列报告】ChatGPT/AIGC到底能做什么？生成式 AI 将重塑几乎所有行业

【ChatGPT系列报告】ChatGPT/AIGC到底能做什么？生成式 AI 将重塑几乎所有行业

专知会员服务

86+阅读 · 2023年3月25日

【ChatGPT系列报告】文心一言、GPT3.5及GPT-4的应用测评对比，32页pdf

【ChatGPT系列报告】文心一言、GPT3.5及GPT-4的应用测评对比，32页pdf

专知会员服务

112+阅读 · 2023年3月21日

ChatGPT有什么用? 论大语言模型在教育中的机遇与挑战

ChatGPT有什么用? 论大语言模型在教育中的机遇与挑战

专知会员服务

78+阅读 · 2023年2月15日

AIGC的技术发展和应用：ChatGPT，20页pdf

AIGC的技术发展和应用：ChatGPT，20页pdf

专知会员服务

174+阅读 · 2023年2月13日

【AAAI2022】视觉语言Transformer学习多模态表示吗?探索的角度来看

【AAAI2022】视觉语言Transformer学习多模态表示吗?探索的角度来看

专知会员服务

35+阅读 · 2022年1月26日

语言视觉预训练语言模型揭密，Behind the Scene: Revealing the Secrets of Pre-trained Vision-and-Language Models

语言视觉预训练语言模型揭密，Behind the Scene: Revealing the Secrets of Pre-trained Vision-and-Language Models

专知会员服务

36+阅读 · 2020年5月20日

如何构建多模态BERT? 这份UNC76页《LXMERT: 从Transformer学习跨模态编码表示》PPT告诉您，附论文代码

如何构建多模态BERT? 这份UNC76页《LXMERT: 从Transformer学习跨模态编码表示》PPT告诉您，附论文代码

专知会员服务

85+阅读 · 2020年2月27日

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

【CVPR2023】Vita-CLIP:通过多模态提示的视频和文本自适应CLIP

【CVPR2023】Vita-CLIP:通过多模态提示的视频和文本自适应CLIP

专知

5+阅读 · 2023年4月11日

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

专知

23+阅读 · 2023年4月8日

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

AI自动生成prompt媲美人类，网友：工程师刚被聘用，又要淘汰了

AI自动生成prompt媲美人类，网友：工程师刚被聘用，又要淘汰了

THU数据派

2+阅读 · 2022年11月14日

强化学习大牛Sergey Levine新作：三个大模型教会机器人认路

强化学习大牛Sergey Levine新作：三个大模型教会机器人认路

机器之心

2+阅读 · 2022年7月24日

论文浅尝 | KM-BART：用于视觉常识生成的知识增强多模态BART

论文浅尝 | KM-BART：用于视觉常识生成的知识增强多模态BART

开放知识图谱

0+阅读 · 2022年5月29日

最新《知识驱动的文本生成》综述论文，44页pdf

最新《知识驱动的文本生成》综述论文，44页pdf

专知

25+阅读 · 2020年10月14日

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

专知

50+阅读 · 2019年10月20日

自然语言处理常识推理综述论文，60页pdf

自然语言处理常识推理综述论文，60页pdf

专知

73+阅读 · 2019年4月4日

大脑后顶叶皮层内的空间编码和多感觉整合

国家自然科学基金

1+阅读 · 2014年12月31日

视频的中层视觉表达和高层行为识别研究

国家自然科学基金

0+阅读 · 2013年12月31日

金属/铁电体/半导体铁电隧道忆阻器的制备与性能研究

国家自然科学基金

0+阅读 · 2013年12月31日

面向空间探测任务的机器人群体学习进化与智能协作技术

国家自然科学基金

1+阅读 · 2012年12月31日

嵌入式电极侧向场激励薄膜体声波谐振器研究

国家自然科学基金

0+阅读 · 2012年12月31日

金属/导电高分子界面效应与神经突触可塑性模拟

国家自然科学基金

0+阅读 · 2012年12月31日

在"鸡尾酒会"环境中促进语音识别的听知觉加工链

国家自然科学基金

0+阅读 · 2011年12月31日

miR-450b-5p诱导EMT及促进结直肠癌侵袭和转移的分子机制

国家自然科学基金

0+阅读 · 2011年12月31日

肝细胞癌血管生成拟态的分子机制研究

国家自然科学基金

0+阅读 · 2009年12月31日

句子语义的视觉表示研究

国家自然科学基金

4+阅读 · 2009年12月31日

Sensitivity and Robustness of Large Language Models to Prompt in Japanese

Arxiv

0+阅读 · 2023年5月15日

Musketeer (All for One, and One for All): A Generalist Vision-Language Model with Task Explanation Prompts

Arxiv

0+阅读 · 2023年5月11日

When ChatGPT for Computer Vision Will Come? From 2D to 3D

Arxiv

0+阅读 · 2023年5月10日

Super Vision Transformer

Arxiv

0+阅读 · 2023年5月10日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

42+阅读 · 2023年4月19日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

476+阅读 · 2023年3月31日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

61+阅读 · 2023年3月29日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

51+阅读 · 2023年3月22日

A Complete Survey on Generative AI (AIGC): Is ChatGPT from GPT-4 to GPT-5 All You Need?

Arxiv

84+阅读 · 2023年3月21日

Deep contextualized word representations

Arxiv

10+阅读 · 2018年3月22日

VIP会员

相关主题

相关VIP内容

【CVPR2023】Vita-CLIP:通过多模态提示的视频和文本自适应CLIP

【CVPR2023】Vita-CLIP:通过多模态提示的视频和文本自适应CLIP

专知会员服务

40+阅读 · 2023年4月11日

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

专知会员服务

103+阅读 · 2023年4月7日

ChatGPT背后的指令学习是什么？PSU最新首篇《指令学习》技术全面综述，详述指令学习关键问题

ChatGPT背后的指令学习是什么？PSU最新首篇《指令学习》技术全面综述，详述指令学习关键问题

专知会员服务

100+阅读 · 2023年3月27日

【ChatGPT系列报告】ChatGPT/AIGC到底能做什么？生成式 AI 将重塑几乎所有行业

【ChatGPT系列报告】ChatGPT/AIGC到底能做什么？生成式 AI 将重塑几乎所有行业

专知会员服务

86+阅读 · 2023年3月25日

【ChatGPT系列报告】文心一言、GPT3.5及GPT-4的应用测评对比，32页pdf

【ChatGPT系列报告】文心一言、GPT3.5及GPT-4的应用测评对比，32页pdf

专知会员服务

112+阅读 · 2023年3月21日

ChatGPT有什么用? 论大语言模型在教育中的机遇与挑战

ChatGPT有什么用? 论大语言模型在教育中的机遇与挑战

专知会员服务

78+阅读 · 2023年2月15日

AIGC的技术发展和应用：ChatGPT，20页pdf

AIGC的技术发展和应用：ChatGPT，20页pdf

专知会员服务

174+阅读 · 2023年2月13日

【AAAI2022】视觉语言Transformer学习多模态表示吗?探索的角度来看

【AAAI2022】视觉语言Transformer学习多模态表示吗?探索的角度来看

专知会员服务

35+阅读 · 2022年1月26日

语言视觉预训练语言模型揭密，Behind the Scene: Revealing the Secrets of Pre-trained Vision-and-Language Models

语言视觉预训练语言模型揭密，Behind the Scene: Revealing the Secrets of Pre-trained Vision-and-Language Models

专知会员服务

36+阅读 · 2020年5月20日

如何构建多模态BERT? 这份UNC76页《LXMERT: 从Transformer学习跨模态编码表示》PPT告诉您，附论文代码

如何构建多模态BERT? 这份UNC76页《LXMERT: 从Transformer学习跨模态编码表示》PPT告诉您，附论文代码

专知会员服务

85+阅读 · 2020年2月27日

热门VIP内容

开通专知VIP会员享更多权益服务

【CMU博士论文】数据驱动决策中的激励、信息与不确定性

DGP双粒度提示框架：图增强大模型助力欺诈检测

【ICCV2025】ESSENTIAL：用于视频类增量学习的情景记忆与语义记忆整合

唯快不破：大型语言模型高效架构综述

相关资讯

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

【CVPR2023】Vita-CLIP:通过多模态提示的视频和文本自适应CLIP

【CVPR2023】Vita-CLIP:通过多模态提示的视频和文本自适应CLIP

专知

5+阅读 · 2023年4月11日

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

专知

23+阅读 · 2023年4月8日

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

AI自动生成prompt媲美人类，网友：工程师刚被聘用，又要淘汰了

AI自动生成prompt媲美人类，网友：工程师刚被聘用，又要淘汰了

THU数据派

2+阅读 · 2022年11月14日

强化学习大牛Sergey Levine新作：三个大模型教会机器人认路

强化学习大牛Sergey Levine新作：三个大模型教会机器人认路

机器之心

2+阅读 · 2022年7月24日

论文浅尝 | KM-BART：用于视觉常识生成的知识增强多模态BART

论文浅尝 | KM-BART：用于视觉常识生成的知识增强多模态BART

开放知识图谱

0+阅读 · 2022年5月29日

最新《知识驱动的文本生成》综述论文，44页pdf

最新《知识驱动的文本生成》综述论文，44页pdf

专知

25+阅读 · 2020年10月14日

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

专知

50+阅读 · 2019年10月20日

自然语言处理常识推理综述论文，60页pdf

自然语言处理常识推理综述论文，60页pdf

专知

73+阅读 · 2019年4月4日

相关基金

大脑后顶叶皮层内的空间编码和多感觉整合

国家自然科学基金

1+阅读 · 2014年12月31日

视频的中层视觉表达和高层行为识别研究

国家自然科学基金

0+阅读 · 2013年12月31日

金属/铁电体/半导体铁电隧道忆阻器的制备与性能研究

国家自然科学基金

0+阅读 · 2013年12月31日

面向空间探测任务的机器人群体学习进化与智能协作技术

国家自然科学基金

1+阅读 · 2012年12月31日

嵌入式电极侧向场激励薄膜体声波谐振器研究

国家自然科学基金

0+阅读 · 2012年12月31日

金属/导电高分子界面效应与神经突触可塑性模拟

国家自然科学基金

0+阅读 · 2012年12月31日

在"鸡尾酒会"环境中促进语音识别的听知觉加工链

国家自然科学基金

0+阅读 · 2011年12月31日

miR-450b-5p诱导EMT及促进结直肠癌侵袭和转移的分子机制

国家自然科学基金

0+阅读 · 2011年12月31日

肝细胞癌血管生成拟态的分子机制研究

国家自然科学基金

0+阅读 · 2009年12月31日

句子语义的视觉表示研究

国家自然科学基金

4+阅读 · 2009年12月31日

相关论文

Sensitivity and Robustness of Large Language Models to Prompt in Japanese

Arxiv

0+阅读 · 2023年5月15日

Musketeer (All for One, and One for All): A Generalist Vision-Language Model with Task Explanation Prompts

Arxiv

0+阅读 · 2023年5月11日

When ChatGPT for Computer Vision Will Come? From 2D to 3D

Arxiv

0+阅读 · 2023年5月10日

Super Vision Transformer

Arxiv

0+阅读 · 2023年5月10日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

42+阅读 · 2023年4月19日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

476+阅读 · 2023年3月31日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

61+阅读 · 2023年3月29日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

51+阅读 · 2023年3月22日

A Complete Survey on Generative AI (AIGC): Is ChatGPT from GPT-4 to GPT-5 All You Need?

Arxiv

84+阅读 · 2023年3月21日

Deep contextualized word representations

Arxiv

10+阅读 · 2018年3月22日

微信扫码咨询专知VIP会员