【AAAI2023】不确定性感知的图像描述生成 - 专知VIP

会员服务 ·

13

AAAI 2023 · 不确定性 · 图像描述生成（Image Caption） ·

2022 年 12 月 4 日

【AAAI2023】不确定性感知的图像描述生成

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

人们普遍认为，一个词的标题的不确定性越高，就需要更多相互关联的上下文信息来确定它。然而，目前的图像描述生成方法通常考虑顺序、平等地生成句子中的所有单词。在本文中，我们提出了一个不确定性感知的图像描述成框架，该框架并行迭代地在已有词之间从易到难插入不连续候选词，直到收敛。我们假设句子中的高不确定性词需要更多的先验信息才能做出正确的决定，应该在后面的阶段产生。由此产生的非自回归层次结构使得标题生成可解释且直观。具体来说，我们利用图像条件下的单词袋模型来测量单词的不确定度，并应用动态规划算法来构造训练对。在推理过程中，我们设计了一种不确定性自适应并行波束搜索技术，它产生了一个经验对数时间复杂度。在MS COCO基准上的大量实验表明，我们的方法在描述质量和解码速度上都优于强基准和相关方法。

https://www.zhuanzhi.ai/paper/51c79cb91932a14e0000e8d71d3f8399

成为VIP会员查看完整内容

26

相关内容

AAAI 2023

【AAAI2023】图序注意力网络

【AAAI2023】图序注意力网络

专知会员服务

46+阅读 · 2022年11月24日

【AAAI2022】不确定性感知的多视角表示学习

【AAAI2022】不确定性感知的多视角表示学习

专知会员服务

47+阅读 · 2022年1月25日

【AAAI2022】联合文本分类和关系提取的统一模型可解释性和鲁棒性

【AAAI2022】联合文本分类和关系提取的统一模型可解释性和鲁棒性

专知会员服务

19+阅读 · 2021年12月30日

【ICCV2021】递阶变分神经不确定性模型的随机视频预测

专知会员服务

14+阅读 · 2021年10月9日

【ICML2021】贝叶斯注意力信念网络

专知会员服务

39+阅读 · 2021年6月11日

【AAAI2021】RSPNet: 相对速度感知的无监督视频表示学习

【AAAI2021】RSPNet: 相对速度感知的无监督视频表示学习

专知会员服务

19+阅读 · 2021年2月12日

【AAAI2021】双级协作变换器Transformer图像描述生成

【AAAI2021】双级协作变换器Transformer图像描述生成

专知会员服务

27+阅读 · 2021年1月26日

【AAAI2021】时间关系建模与自监督的动作分割

【AAAI2021】时间关系建模与自监督的动作分割

专知会员服务

37+阅读 · 2021年1月24日

【AAAI2021】层次推理图神经网络

【AAAI2021】层次推理图神经网络

专知会员服务

70+阅读 · 2020年12月27日

【ICML2020】基于图感知逻辑回归和抢占式查询候选集生成的属性图上主动学习策略

【ICML2020】基于图感知逻辑回归和抢占式查询候选集生成的属性图上主动学习策略

专知会员服务

13+阅读 · 2020年7月9日

【AAAI2023】图序注意力网络

【AAAI2023】图序注意力网络

专知

6+阅读 · 2022年11月24日

论文浅尝 | PASSLEAF：基于样本池的不确定性知识图谱嵌入半监督学习框架

论文浅尝 | PASSLEAF：基于样本池的不确定性知识图谱嵌入半监督学习框架

开放知识图谱

1+阅读 · 2022年10月7日

生成扩散模型漫谈：DDPM = 贝叶斯 + 去噪

生成扩散模型漫谈：DDPM = 贝叶斯 + 去噪

PaperWeekly

1+阅读 · 2022年7月24日

【AAAI2022】不确定性感知的多视角表示学习

【AAAI2022】不确定性感知的多视角表示学习

专知

1+阅读 · 2022年1月25日

【AAAI2022】联合文本分类和关系提取的统一模型可解释性和鲁棒性

【AAAI2022】联合文本分类和关系提取的统一模型可解释性和鲁棒性

专知

0+阅读 · 2021年12月30日

【速览】ACM MM 2021 | 针对场景文本图像超分辨率任务的并行上下文注意力网络

【速览】ACM MM 2021 | 针对场景文本图像超分辨率任务的并行上下文注意力网络

中国图象图形学学会CSIG

0+阅读 · 2021年11月5日

IJCAI 2021 | 不确定性感知小样本图像分类模型，实现SOTA性能

IJCAI 2021 | 不确定性感知小样本图像分类模型，实现SOTA性能

微软研究院AI头条

0+阅读 · 2021年8月19日

【学界】CVPR 2019 | 旷视研究院提出新型损失函数：改善边界框模糊问题

【学界】CVPR 2019 | 旷视研究院提出新型损失函数：改善边界框模糊问题

GAN生成式对抗网络

14+阅读 · 2019年5月20日

【GAN货】用神经网络生成音乐

【GAN货】用神经网络生成音乐

专知

13+阅读 · 2018年9月15日

【干货】基于属性学习和额外知识库的图像描述生成和视觉问答

【干货】基于属性学习和额外知识库的图像描述生成和视觉问答

专知

18+阅读 · 2017年12月25日

方差正则化的分类模型选择方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于模糊软集的不确定性推理研究

国家自然科学基金

2+阅读 · 2014年12月31日

面向低质量图像数据的低秩判别迁移子空间特征抽取研究

国家自然科学基金

0+阅读 · 2013年12月31日

不确定性平衡优化理论及其应用

国家自然科学基金

1+阅读 · 2012年12月31日

稳健且有效的回归和变量选择方法研究

国家自然科学基金

1+阅读 · 2012年12月31日

基于稀疏感知学习的高光谱遥感影像分类

国家自然科学基金

1+阅读 · 2012年12月31日

基于视觉语义推理与上下文约束建模的场景理解方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于多目视觉的形体语言感知与识别研究

国家自然科学基金

2+阅读 · 2011年12月31日

基于语义的图像合成

国家自然科学基金

0+阅读 · 2011年12月31日

基于感知视觉单词描述的对象分割研究

国家自然科学基金

0+阅读 · 2009年12月31日

Using In-Context Learning to Improve Dialogue Safety

Arxiv

0+阅读 · 2023年2月2日

Diffusion-based Image Translation using Disentangled Style and Content Representation

Arxiv

0+阅读 · 2023年2月1日

Decomposed Mutual Information Estimation for Contrastive Representation Learning

Arxiv

11+阅读 · 2021年6月25日

Unsupervised Multi-Source Domain Adaptation for Person Re-Identification

Arxiv

14+阅读 · 2021年4月27日

A Hierarchical Reasoning Graph Neural Network for The Automatic Scoring of Answer Transcriptions in Video Job Interviews

A Hierarchical Reasoning Graph Neural Network for The Automatic Scoring of Answer Transcriptions in Video Job Interviews

Arxiv

14+阅读 · 2020年12月22日

Temporal Relational Modeling with Self-Supervision for Action Segmentation

Arxiv

13+阅读 · 2020年12月14日

Contrastive Clustering

Arxiv

31+阅读 · 2020年9月21日

Predictive Engagement: An Efficient Metric For Automatic Evaluation of Open-Domain Dialogue Systems

Predictive Engagement: An Efficient Metric For Automatic Evaluation of Open-Domain Dialogue Systems

Arxiv

11+阅读 · 2019年11月4日

Multimodal Model-Agnostic Meta-Learning via Task-Aware Modulation

Multimodal Model-Agnostic Meta-Learning via Task-Aware Modulation

Arxiv

25+阅读 · 2019年10月30日

Diverse Image-to-Image Translation via Disentangled Representations

Diverse Image-to-Image Translation via Disentangled Representations

Arxiv

13+阅读 · 2018年8月2日

VIP会员

相关主题

图像描述生成（Image Caption）

相关VIP内容

【AAAI2023】图序注意力网络

【AAAI2023】图序注意力网络

专知会员服务

46+阅读 · 2022年11月24日

【AAAI2022】不确定性感知的多视角表示学习

【AAAI2022】不确定性感知的多视角表示学习

专知会员服务

47+阅读 · 2022年1月25日

【AAAI2022】联合文本分类和关系提取的统一模型可解释性和鲁棒性

【AAAI2022】联合文本分类和关系提取的统一模型可解释性和鲁棒性

专知会员服务

19+阅读 · 2021年12月30日

【ICCV2021】递阶变分神经不确定性模型的随机视频预测

专知会员服务

14+阅读 · 2021年10月9日

【ICML2021】贝叶斯注意力信念网络

专知会员服务

39+阅读 · 2021年6月11日

【AAAI2021】RSPNet: 相对速度感知的无监督视频表示学习

【AAAI2021】RSPNet: 相对速度感知的无监督视频表示学习

专知会员服务

19+阅读 · 2021年2月12日

【AAAI2021】双级协作变换器Transformer图像描述生成

【AAAI2021】双级协作变换器Transformer图像描述生成

专知会员服务

27+阅读 · 2021年1月26日

【AAAI2021】时间关系建模与自监督的动作分割

【AAAI2021】时间关系建模与自监督的动作分割

专知会员服务

37+阅读 · 2021年1月24日

【AAAI2021】层次推理图神经网络

【AAAI2021】层次推理图神经网络

专知会员服务

70+阅读 · 2020年12月27日

【ICML2020】基于图感知逻辑回归和抢占式查询候选集生成的属性图上主动学习策略

【ICML2020】基于图感知逻辑回归和抢占式查询候选集生成的属性图上主动学习策略

专知会员服务

13+阅读 · 2020年7月9日

热门VIP内容

开通专知VIP会员享更多权益服务

《乌克兰无人机产业：志愿者与政策在构建新兴无人机产业中的协同作用》最新报告

《人工智能辅助决策中的数据可视化：系统性综述》

人工智能驱动弹药制造现代化：美国陆军转型之路

《敏捷作战部署中枢纽-辐条基地选址优化研究》80页

相关资讯

【AAAI2023】图序注意力网络

【AAAI2023】图序注意力网络

专知

6+阅读 · 2022年11月24日

论文浅尝 | PASSLEAF：基于样本池的不确定性知识图谱嵌入半监督学习框架

论文浅尝 | PASSLEAF：基于样本池的不确定性知识图谱嵌入半监督学习框架

开放知识图谱

1+阅读 · 2022年10月7日

生成扩散模型漫谈：DDPM = 贝叶斯 + 去噪

生成扩散模型漫谈：DDPM = 贝叶斯 + 去噪

PaperWeekly

1+阅读 · 2022年7月24日

【AAAI2022】不确定性感知的多视角表示学习

【AAAI2022】不确定性感知的多视角表示学习

专知

1+阅读 · 2022年1月25日

【AAAI2022】联合文本分类和关系提取的统一模型可解释性和鲁棒性

【AAAI2022】联合文本分类和关系提取的统一模型可解释性和鲁棒性

专知

0+阅读 · 2021年12月30日

【速览】ACM MM 2021 | 针对场景文本图像超分辨率任务的并行上下文注意力网络

【速览】ACM MM 2021 | 针对场景文本图像超分辨率任务的并行上下文注意力网络

中国图象图形学学会CSIG

0+阅读 · 2021年11月5日

IJCAI 2021 | 不确定性感知小样本图像分类模型，实现SOTA性能

IJCAI 2021 | 不确定性感知小样本图像分类模型，实现SOTA性能

微软研究院AI头条

0+阅读 · 2021年8月19日

【学界】CVPR 2019 | 旷视研究院提出新型损失函数：改善边界框模糊问题

【学界】CVPR 2019 | 旷视研究院提出新型损失函数：改善边界框模糊问题

GAN生成式对抗网络

14+阅读 · 2019年5月20日

【GAN货】用神经网络生成音乐

【GAN货】用神经网络生成音乐

专知

13+阅读 · 2018年9月15日

【干货】基于属性学习和额外知识库的图像描述生成和视觉问答

【干货】基于属性学习和额外知识库的图像描述生成和视觉问答

专知

18+阅读 · 2017年12月25日

相关基金

方差正则化的分类模型选择方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于模糊软集的不确定性推理研究

国家自然科学基金

2+阅读 · 2014年12月31日

面向低质量图像数据的低秩判别迁移子空间特征抽取研究

国家自然科学基金

0+阅读 · 2013年12月31日

不确定性平衡优化理论及其应用

国家自然科学基金

1+阅读 · 2012年12月31日

稳健且有效的回归和变量选择方法研究

国家自然科学基金

1+阅读 · 2012年12月31日

基于稀疏感知学习的高光谱遥感影像分类

国家自然科学基金

1+阅读 · 2012年12月31日

基于视觉语义推理与上下文约束建模的场景理解方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于多目视觉的形体语言感知与识别研究

国家自然科学基金

2+阅读 · 2011年12月31日

基于语义的图像合成

国家自然科学基金

0+阅读 · 2011年12月31日

基于感知视觉单词描述的对象分割研究

国家自然科学基金

0+阅读 · 2009年12月31日

相关论文

Using In-Context Learning to Improve Dialogue Safety

Arxiv

0+阅读 · 2023年2月2日

Diffusion-based Image Translation using Disentangled Style and Content Representation

Arxiv

0+阅读 · 2023年2月1日

Decomposed Mutual Information Estimation for Contrastive Representation Learning

Arxiv

11+阅读 · 2021年6月25日

Unsupervised Multi-Source Domain Adaptation for Person Re-Identification

Arxiv

14+阅读 · 2021年4月27日

A Hierarchical Reasoning Graph Neural Network for The Automatic Scoring of Answer Transcriptions in Video Job Interviews

A Hierarchical Reasoning Graph Neural Network for The Automatic Scoring of Answer Transcriptions in Video Job Interviews

Arxiv

14+阅读 · 2020年12月22日

Temporal Relational Modeling with Self-Supervision for Action Segmentation

Arxiv

13+阅读 · 2020年12月14日

Contrastive Clustering

Arxiv

31+阅读 · 2020年9月21日

Predictive Engagement: An Efficient Metric For Automatic Evaluation of Open-Domain Dialogue Systems

Predictive Engagement: An Efficient Metric For Automatic Evaluation of Open-Domain Dialogue Systems

Arxiv

11+阅读 · 2019年11月4日

Multimodal Model-Agnostic Meta-Learning via Task-Aware Modulation

Multimodal Model-Agnostic Meta-Learning via Task-Aware Modulation

Arxiv

25+阅读 · 2019年10月30日

Diverse Image-to-Image Translation via Disentangled Representations

Diverse Image-to-Image Translation via Disentangled Representations

Arxiv

13+阅读 · 2018年8月2日

微信扫码咨询专知VIP会员