本文提出一种语义分组网络通过建立词组与相关语义视频帧的映射来减少信息冗余。 本文提出了一个语义分组网络(SGN)的视频描述生成网络,该网络尝试(1)使用具有部分已解码描述的可区分词组对视频帧进行分组,然后(2)在预测下一个单词时使用这些语义对齐的视频帧组进行解码。 本文发现连续的帧可能提供了相同的信息,然而现有方法集中于仅基于输入视频来丢弃或合并重复信息。语义分组网络学习了一种算法来捕获部分已解码描述中最具区分性的词组以及将每个词组与相关视频帧的映射,通过建立此映射可以将语义上相关的帧聚类,从而减少冗余。与现有方法相反,来自已解码描述词的连续反馈使语义分组网络能够动态更新适应部分解码描述的视频表示。此外,本文提出了一种对比注意损失,以促进单词短语和视频帧之间的准确对齐而无需人工注释。

https://www.zhuanzhi.ai/paper/ca2f9fa733ff339f5ca3e10526823d47

成为VIP会员查看完整内容
15

相关内容

【AAAI2021】RSPNet: 相对速度感知的无监督视频表示学习
专知会员服务
18+阅读 · 2021年2月12日
【AAAI2021】生成式Transformer的对比三元组提取
专知会员服务
49+阅读 · 2021年2月7日
专知会员服务
10+阅读 · 2021年2月4日
专知会员服务
44+阅读 · 2021年1月31日
【AAAI2021】用于多标签图像分类的深度语义词典学习
专知会员服务
14+阅读 · 2020年12月30日
【AAAI2021】记忆门控循环网络
专知会员服务
48+阅读 · 2020年12月28日
【AAAI2021】层次推理图神经网络
专知会员服务
69+阅读 · 2020年12月27日
【AAAI2021】 层次图胶囊网络
专知会员服务
82+阅读 · 2020年12月18日
【AAAI2021】自监督对应学习的对比转换
专知
12+阅读 · 2020年12月11日
【泡泡图灵智库】用于多相机匹配的时空二进制特征
泡泡机器人SLAM
4+阅读 · 2019年9月16日
论文浅尝 | 采用多层注意力机制的事件检测
开放知识图谱
23+阅读 · 2019年8月24日
论文浅尝 | 基于局内去噪和迁移学习的关系抽取
开放知识图谱
16+阅读 · 2018年12月2日
Arxiv
8+阅读 · 2021年2月1日
Arxiv
5+阅读 · 2018年2月26日
VIP会员
相关VIP内容
【AAAI2021】RSPNet: 相对速度感知的无监督视频表示学习
专知会员服务
18+阅读 · 2021年2月12日
【AAAI2021】生成式Transformer的对比三元组提取
专知会员服务
49+阅读 · 2021年2月7日
专知会员服务
10+阅读 · 2021年2月4日
专知会员服务
44+阅读 · 2021年1月31日
【AAAI2021】用于多标签图像分类的深度语义词典学习
专知会员服务
14+阅读 · 2020年12月30日
【AAAI2021】记忆门控循环网络
专知会员服务
48+阅读 · 2020年12月28日
【AAAI2021】层次推理图神经网络
专知会员服务
69+阅读 · 2020年12月27日
【AAAI2021】 层次图胶囊网络
专知会员服务
82+阅读 · 2020年12月18日
微信扫码咨询专知VIP会员