成为VIP会员查看完整内容
VIP会员码认证
首页
主题
发现
会员
服务
注册
·
登录
0
伯克利胡戎航124页博士论文:视觉与语言推理的结构化模型
2020 年 11 月 3 日
AI科技评论
作者 | 陈大鑫
本文介绍一篇胡戎航2020年的博士论文 《
视觉与语言推理的结构化模型
》(《Structured Models for Vision-and-Language Reasoning》),
本篇论文
采用了考虑到人类语言、视觉场景和智能体技能中的模式和规律的体系结构模型,
建立了数据效率高、易于推广的更好的推理模型。
1
作者介绍
胡戎航(Ronghang Hu)是Facebook人工智能研究(FAIR)的研究科学家,在CVPR、ICCV、ECCV、NeurIPS,等AI顶会上发表过十几篇论文,其中一作10篇。
他的研究兴趣包括视觉和语言推理和视觉感知。他于2020年在Trevor Darrell教授和Kate Saenko教授的指导下获得UC Berkeley的计算机科学博士学位。
2019年夏天和2017年夏天,他在全球顶级实验室FAIR做研究实习生,分别与Marcus Rohrbach博士和Ross Girshick博士(RBG大神!)一起工作。
他于2015年获得清华大学电子系学士学位,2014年,他在中国科学院计算技术研究所进行研究实习,山世光教授和王瑞平教授作指导。
个人主页:https://ronghanghu.com/
2
博士论文介绍
论文链接:
https://www2.eecs.berkeley.edu/Pubs/TechRpts/2020/EECS-2020-50.pdf
视觉和语言任务(如回答有关图像的问题、建立一个参考表达式或遵循自然语言指令在视觉环境中导航)需要对图像和文本的两种模式进行联合建模和推理。
我们已经见证了视觉和语言联合推理的重要进展,通常是通过在更大的数据集和更多的计算资源的帮助下训练的神经方法。
然而,解决这些视觉和语言的任务是否像构建具有更多参数的模型、并在更多数据上训练它们一样简单吗?
如果不是,我们又该怎样才能建立数据效率高、易于推广的更好的推理模型呢?
本篇论文
通过视觉和语言推理的结构化模型来回答上述问题,该模型采用了考虑到人类语言、视觉场景和智能体技能中的模式和规律的体系结构模型。
第二章中
,
作者从引用表达式基础的任务开始
提出的组合模块网络(CMNs)考虑了这些表达式中的组合结构,可以显著地提高准确性和泛化性。
第三章中
,作者使用基于与问题推理步骤相一致的动态组合模块的端到端模块网络(N2NMNs)进一步解决了可视化问题回答任务。
第四章中
,作者扩展了模块化推理的研究,提出了一种堆栈神经模块网络(SNMNs),该网络能够自动地引导具有可解释推理步骤的模块布局。
第五章中
,除了模块化推理之外,作者还提出了用语言条件图网络(LCGNs:Language-Conditioned Graph Networks)构造视觉场景的上下文感知表示,并解决了第六章中用迭代指针增强多模态Transformers读取图像中的文本进行问答的问题。
第六章中
,作者展示了嵌入(embodied)任务也需要结构化模型。
第七章中
,作者提出了导航教学跟随任务的Speaker-Follower模型,并给出了一对speake模型和一个互补的follower模型。
最后,在所有这些场景中,作者表明,通过考虑任务和输入模式中的结构,本文提出的模型比非结构化模型的性能和推广性能都要好得多。
论文目录
本文模型:
(a) 本文的模型学习将一个表达式解析成带有注意力(attention )的主语、关系和宾语的语言表达。
(b)定位模块将主语或宾语与每个图像区域匹配,并返回一元概率unary score 。
(c) 关系模块与一对区域匹配一个关系,并返回一个成对的分数。
应用案例:
在给定一幅图像和一个表达式的基础上,我们学习如何将表达式解析为带有注意力的主语
、关系
和宾语
的向量表示,并用两种模块将这些文本成分与图像区域对齐。
定位模块输出每个单独区域的分数,而关系模块生成区域对的分数。
这些输出被整合到区域对的最终分数中,产生顶部区域对作为grounding 结果。
用于组合VQA的端到端模块网络:
本文的方法首先计算问题的深度表示,并将其作为使用RNN实现的layout预测策略的输入。该策略发出一系列结构动作,用反向波兰表达式指定模块化神经网络的模板,以及一系列注意力行为,并从输入句子中提取这些神经模块的参数。这两个序列被传递给网络构建器,网络构建器动态地实例化适当的神经网络,并将其应用于输入图像以获得答案。
通过堆栈神经模块网络的可解释的神经计算模型:
该模型通过模块权重w(t)来预测一个连续的布局,并使用内存堆栈以软方式执行模块。
语言条件图网络:
迭代指针增强的TextVQA多模态转换器:
说话者-跟随者模式用于指导跟随:
了解更多内容,请移步原论文~
推荐阅读
点击阅读原文,直达NeurIPS小组~
登录查看更多
点赞并收藏
0
暂时没有读者
0
权益说明
本文档仅做收录索引使用,若发现您的权益受到侵害,请立即联系客服(微信: zhuanzhi02,邮箱:bd@zhuanzhi.ai),我们会尽快为您处理
相关内容
结构化模型
关注
0
【伯克利博士论文】通过对齐表示和图像来跨域自适应,95页pdf
专知会员服务
41+阅读 · 2020年12月27日
【牛津大学BoYang博士论文】学习重建和分割三维物体,143页pdf
专知会员服务
65+阅读 · 2020年11月9日
【伯克利胡戎航博士论文】视觉与语言推理的结构化模型,124页pdf
专知会员服务
42+阅读 · 2020年10月31日
【斯坦福大学博士论文】自监督场景表示学习, 97页pdf
专知会员服务
92+阅读 · 2020年6月19日
还在修改博士论文?这份《博士论文写作技巧》为你指南
专知会员服务
162+阅读 · 2020年6月9日
【清华大学 博士论文】大规模结构化知识的表示学习、自动获取与计算应用,林衍凯
专知会员服务
135+阅读 · 2019年11月7日
斯坦福李飞飞高徒Johnson博士论文: 组成式计算机视觉智能,195页PDF
专知会员服务
67+阅读 · 2019年10月27日
【伯克利博士论文】如何让机器人多技能?通过最大熵强化学习(107页pdf)
专知会员服务
77+阅读 · 2019年10月27日
【伯克利博士论文】从自然语言中学习(附106页pdf全文下载)
专知会员服务
50+阅读 · 2019年10月26日
CMU博士论文:可微优化机器学习建模
专知会员服务
58+阅读 · 2019年10月26日
【HEC-Montreal唐建博士】图神经网络推理,附27页ppt
专知
47+阅读 · 2019年10月30日
八篇NeurIPS 2019最新公布的【图神经网络(GNN)】相关论文
专知
75+阅读 · 2019年9月10日
重磅发布|清华大学创新领军工程博士长三角项目今年正式启动
清华大学研究生教育
7+阅读 · 2019年9月2日
近期必读的10篇 ICML 2019【图神经网络(GNN)】相关论文和代码
专知
131+阅读 · 2019年5月28日
超越标准 GNN !DeepMind、谷歌提出图匹配网络| ICML最新论文
新智元
20+阅读 · 2019年5月6日
DeepMind网红博士300页论文出炉:面向NLP的神经迁移学习(附下载)
新智元
10+阅读 · 2019年3月27日
这十条简单法则帮助你博士顺利毕业(附全文下载)
专知
8+阅读 · 2018年12月25日
【伯克利博士论文】如何让机器人多技能?通过最大熵强化学习(107页pdf)
专知
10+阅读 · 2018年12月22日
斯坦福李飞飞高徒Johnson博士论文: 组成式计算机视觉智能,195页PDF
专知
57+阅读 · 2018年12月16日
【何恺明最新论文】非局部神经网络,打造未来神经网络基本组件
新智元
4+阅读 · 2017年11月23日
Towards User Scheduling for 6G: A Fairness-Oriented Scheduler Using Multi-Agent Reinforcement Learning
Arxiv
0+阅读 · 2021年2月4日
Towards Multi-agent Reinforcement Learning for Wireless Network Protocol Synthesis
Arxiv
0+阅读 · 2021年2月2日
Permute & Add Network Codes via Group Algebras
Arxiv
0+阅读 · 2021年2月2日
DyERNIE: Dynamic Evolution of Riemannian Manifold Embeddings for Temporal Knowledge Graph Completion
Arxiv
4+阅读 · 2020年11月8日
Comprehensive Image Captioning via Scene Graph Decomposition
Arxiv
9+阅读 · 2020年7月23日
Evolving Losses for Unsupervised Video Representation Learning
Arxiv
23+阅读 · 2020年2月26日
Understanding disentangling in $β$-VAE
Arxiv
4+阅读 · 2018年4月10日
Flipped-Adversarial AutoEncoders
Arxiv
6+阅读 · 2018年4月4日
3D Pose Estimation and 3D Model Retrieval for Objects in the Wild
Arxiv
7+阅读 · 2018年3月30日
Attention Is All You Need
Arxiv
27+阅读 · 2017年12月6日
VIP会员
自助开通(推荐)
客服开通
详情
相关主题
结构化模型
视觉与语言推理
结构化
Facebook AI Research
博士
论文
相关VIP内容
【伯克利博士论文】通过对齐表示和图像来跨域自适应,95页pdf
专知会员服务
41+阅读 · 2020年12月27日
【牛津大学BoYang博士论文】学习重建和分割三维物体,143页pdf
专知会员服务
65+阅读 · 2020年11月9日
【伯克利胡戎航博士论文】视觉与语言推理的结构化模型,124页pdf
专知会员服务
42+阅读 · 2020年10月31日
【斯坦福大学博士论文】自监督场景表示学习, 97页pdf
专知会员服务
92+阅读 · 2020年6月19日
还在修改博士论文?这份《博士论文写作技巧》为你指南
专知会员服务
162+阅读 · 2020年6月9日
【清华大学 博士论文】大规模结构化知识的表示学习、自动获取与计算应用,林衍凯
专知会员服务
135+阅读 · 2019年11月7日
斯坦福李飞飞高徒Johnson博士论文: 组成式计算机视觉智能,195页PDF
专知会员服务
67+阅读 · 2019年10月27日
【伯克利博士论文】如何让机器人多技能?通过最大熵强化学习(107页pdf)
专知会员服务
77+阅读 · 2019年10月27日
【伯克利博士论文】从自然语言中学习(附106页pdf全文下载)
专知会员服务
50+阅读 · 2019年10月26日
CMU博士论文:可微优化机器学习建模
专知会员服务
58+阅读 · 2019年10月26日
热门VIP内容
开通专知VIP会员 享更多权益服务
【博士论文】ࣞ动态三维人体的隐式神经表示方法研究
大语言模型训练数据
【新书】动力系统的收缩理论,258页pdf
适应性异常检测在识别网络物理系统攻击中的应用:系统性文献综述
相关资讯
【HEC-Montreal唐建博士】图神经网络推理,附27页ppt
专知
47+阅读 · 2019年10月30日
八篇NeurIPS 2019最新公布的【图神经网络(GNN)】相关论文
专知
75+阅读 · 2019年9月10日
重磅发布|清华大学创新领军工程博士长三角项目今年正式启动
清华大学研究生教育
7+阅读 · 2019年9月2日
近期必读的10篇 ICML 2019【图神经网络(GNN)】相关论文和代码
专知
131+阅读 · 2019年5月28日
超越标准 GNN !DeepMind、谷歌提出图匹配网络| ICML最新论文
新智元
20+阅读 · 2019年5月6日
DeepMind网红博士300页论文出炉:面向NLP的神经迁移学习(附下载)
新智元
10+阅读 · 2019年3月27日
这十条简单法则帮助你博士顺利毕业(附全文下载)
专知
8+阅读 · 2018年12月25日
【伯克利博士论文】如何让机器人多技能?通过最大熵强化学习(107页pdf)
专知
10+阅读 · 2018年12月22日
斯坦福李飞飞高徒Johnson博士论文: 组成式计算机视觉智能,195页PDF
专知
57+阅读 · 2018年12月16日
【何恺明最新论文】非局部神经网络,打造未来神经网络基本组件
新智元
4+阅读 · 2017年11月23日
相关论文
Towards User Scheduling for 6G: A Fairness-Oriented Scheduler Using Multi-Agent Reinforcement Learning
Arxiv
0+阅读 · 2021年2月4日
Towards Multi-agent Reinforcement Learning for Wireless Network Protocol Synthesis
Arxiv
0+阅读 · 2021年2月2日
Permute & Add Network Codes via Group Algebras
Arxiv
0+阅读 · 2021年2月2日
DyERNIE: Dynamic Evolution of Riemannian Manifold Embeddings for Temporal Knowledge Graph Completion
Arxiv
4+阅读 · 2020年11月8日
Comprehensive Image Captioning via Scene Graph Decomposition
Arxiv
9+阅读 · 2020年7月23日
Evolving Losses for Unsupervised Video Representation Learning
Arxiv
23+阅读 · 2020年2月26日
Understanding disentangling in $β$-VAE
Arxiv
4+阅读 · 2018年4月10日
Flipped-Adversarial AutoEncoders
Arxiv
6+阅读 · 2018年4月4日
3D Pose Estimation and 3D Model Retrieval for Objects in the Wild
Arxiv
7+阅读 · 2018年3月30日
Attention Is All You Need
Arxiv
27+阅读 · 2017年12月6日
大家都在搜
PRML
MoE
大型语言模型
无人机蜂群
时间序列
智能推荐
笛卡尔
palantir
大模型
出海产品从 0 到 1 该怎么做
Top
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top