【AAAI2021】用于视频描述的语义分组网络 - 专知VIP

会员服务 ·

1

视频描述 · 语义分组网络 ·

2021 年 2 月 3 日

【AAAI2021】用于视频描述的语义分组网络

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

本文提出一种语义分组网络通过建立词组与相关语义视频帧的映射来减少信息冗余。本文提出了一个语义分组网络（SGN）的视频描述生成网络，该网络尝试（1）使用具有部分已解码描述的可区分词组对视频帧进行分组，然后（2）在预测下一个单词时使用这些语义对齐的视频帧组进行解码。本文发现连续的帧可能提供了相同的信息，然而现有方法集中于仅基于输入视频来丢弃或合并重复信息。语义分组网络学习了一种算法来捕获部分已解码描述中最具区分性的词组以及将每个词组与相关视频帧的映射，通过建立此映射可以将语义上相关的帧聚类，从而减少冗余。与现有方法相反，来自已解码描述词的连续反馈使语义分组网络能够动态更新适应部分解码描述的视频表示。此外，本文提出了一种对比注意损失，以促进单词短语和视频帧之间的准确对齐而无需人工注释。

https://www.zhuanzhi.ai/paper/ca2f9fa733ff339f5ca3e10526823d47

成为VIP会员查看完整内容

16

相关内容

视频描述

【AAAI2021】RSPNet: 相对速度感知的无监督视频表示学习

【AAAI2021】RSPNet: 相对速度感知的无监督视频表示学习

专知会员服务

19+阅读 · 2021年2月12日

【AAAI2021】生成式Transformer的对比三元组提取

【AAAI2021】生成式Transformer的对比三元组提取

专知会员服务

51+阅读 · 2021年2月7日

【AAAI2021】MVFNet: 用于高效视频识别的多视角融合网络

专知会员服务

11+阅读 · 2021年2月4日

【AAAI2021】Co-GAT:一种用于联合对话行为识别和情感分类的协同交互图注意力网络

【AAAI2021】Co-GAT:一种用于联合对话行为识别和情感分类的协同交互图注意力网络

专知会员服务

19+阅读 · 2021年2月1日

【AAAI2021】基于双任务一致性的半监督医学图像分割

专知会员服务

45+阅读 · 2021年1月31日

【AAAI2021】带有生成变换器（CGT）的对比学习三元组提取框架

【AAAI2021】带有生成变换器（CGT）的对比学习三元组提取框架

专知会员服务

24+阅读 · 2021年1月15日

【AAAI2021】用于多标签图像分类的深度语义词典学习

【AAAI2021】用于多标签图像分类的深度语义词典学习

专知会员服务

15+阅读 · 2020年12月30日

【AAAI2021】记忆门控循环网络

【AAAI2021】记忆门控循环网络

专知会员服务

50+阅读 · 2020年12月28日

【AAAI2021】层次推理图神经网络

【AAAI2021】层次推理图神经网络

专知会员服务

70+阅读 · 2020年12月27日

【AAAI2021】层次图胶囊网络

【AAAI2021】层次图胶囊网络

专知会员服务

84+阅读 · 2020年12月18日

【AAAI2021】自监督对应学习的对比转换

【AAAI2021】自监督对应学习的对比转换

专知

12+阅读 · 2020年12月11日

【ACMMM2020-北航】KBGN:用于视觉对话中自适应视觉-文本推理的知识桥图网络

【ACMMM2020-北航】KBGN:用于视觉对话中自适应视觉-文本推理的知识桥图网络

专知

10+阅读 · 2020年8月12日

【泡泡图灵智库】用于多相机匹配的时空二进制特征

【泡泡图灵智库】用于多相机匹配的时空二进制特征

泡泡机器人SLAM

4+阅读 · 2019年9月16日

论文浅尝 | 将文本建模为关系图，用于联合实体和关系提取

论文浅尝 | 将文本建模为关系图，用于联合实体和关系提取

开放知识图谱

77+阅读 · 2019年9月14日

论文浅尝 | 采用多层注意力机制的事件检测

论文浅尝 | 采用多层注意力机制的事件检测

开放知识图谱

24+阅读 · 2019年8月24日

性能优越！李飞飞团队首次提出一种补全视觉信息库的半监督方法

性能优越！李飞飞团队首次提出一种补全视觉信息库的半监督方法

AI前线

6+阅读 · 2019年5月11日

ACM MM18 | 用于跨模态检索的综合距离保持自编码器

ACM MM18 | 用于跨模态检索的综合距离保持自编码器

PaperWeekly

5+阅读 · 2019年3月11日

论文浅尝 | 基于局内去噪和迁移学习的关系抽取

论文浅尝 | 基于局内去噪和迁移学习的关系抽取

开放知识图谱

16+阅读 · 2018年12月2日

【泡泡点云时空】3DMV:联合三维多视图预测的三维语义场景分割(ECCV2018-7)

【泡泡点云时空】3DMV:联合三维多视图预测的三维语义场景分割(ECCV2018-7)

泡泡机器人SLAM

9+阅读 · 2018年10月16日

【干货】首次使用分层强化学习框架进行视频描述生成，王威廉组最新工作

【干货】首次使用分层强化学习框架进行视频描述生成，王威廉组最新工作

专知

14+阅读 · 2017年12月9日

Semantic Grouping Network for Video Captioning

Arxiv

8+阅读 · 2021年2月1日

Video2Commonsense: Generating Commonsense Descriptions to Enrich Video Captioning

Video2Commonsense: Generating Commonsense Descriptions to Enrich Video Captioning

Arxiv

3+阅读 · 2020年3月17日

Learning to Respond with Stickers: A Framework of Unifying Multi-Modality in Multi-Turn Dialog

Learning to Respond with Stickers: A Framework of Unifying Multi-Modality in Multi-Turn Dialog

Arxiv

14+阅读 · 2020年3月10日

Activitynet 2019 Task 3: Exploring Contexts for Dense Captioning Events in Videos

Activitynet 2019 Task 3: Exploring Contexts for Dense Captioning Events in Videos

Arxiv

3+阅读 · 2019年7月11日

Leveraging Long and Short-term Information in Content-aware Movie Recommendation

Arxiv

8+阅读 · 2018年5月2日

Watch, Listen, and Describe: Globally and Locally Aligned Cross-Modal Attentions for Video Captioning

Arxiv

6+阅读 · 2018年4月15日

Fine-grained Activity Recognition in Baseball Videos

Arxiv

6+阅读 · 2018年4月9日

Bidirectional Attentive Fusion with Context Gating for Dense Video Captioning

Arxiv

5+阅读 · 2018年4月3日

Video Captioning via Hierarchical Reinforcement Learning

Arxiv

20+阅读 · 2018年3月29日

Topic Compositional Neural Language Model

Arxiv

5+阅读 · 2018年2月26日

VIP会员

相关主题

语义分组网络

相关VIP内容

【AAAI2021】RSPNet: 相对速度感知的无监督视频表示学习

【AAAI2021】RSPNet: 相对速度感知的无监督视频表示学习

专知会员服务

19+阅读 · 2021年2月12日

【AAAI2021】生成式Transformer的对比三元组提取

【AAAI2021】生成式Transformer的对比三元组提取

专知会员服务

51+阅读 · 2021年2月7日

【AAAI2021】MVFNet: 用于高效视频识别的多视角融合网络

专知会员服务

11+阅读 · 2021年2月4日

【AAAI2021】Co-GAT:一种用于联合对话行为识别和情感分类的协同交互图注意力网络

【AAAI2021】Co-GAT:一种用于联合对话行为识别和情感分类的协同交互图注意力网络

专知会员服务

19+阅读 · 2021年2月1日

【AAAI2021】基于双任务一致性的半监督医学图像分割

专知会员服务

45+阅读 · 2021年1月31日

【AAAI2021】带有生成变换器（CGT）的对比学习三元组提取框架

【AAAI2021】带有生成变换器（CGT）的对比学习三元组提取框架

专知会员服务

24+阅读 · 2021年1月15日

【AAAI2021】用于多标签图像分类的深度语义词典学习

【AAAI2021】用于多标签图像分类的深度语义词典学习

专知会员服务

15+阅读 · 2020年12月30日

【AAAI2021】记忆门控循环网络

【AAAI2021】记忆门控循环网络

专知会员服务

50+阅读 · 2020年12月28日

【AAAI2021】层次推理图神经网络

【AAAI2021】层次推理图神经网络

专知会员服务

70+阅读 · 2020年12月27日

【AAAI2021】层次图胶囊网络

【AAAI2021】层次图胶囊网络

专知会员服务

84+阅读 · 2020年12月18日

热门VIP内容

开通专知VIP会员享更多权益服务

《乌克兰无人机产业：志愿者与政策在构建新兴无人机产业中的协同作用》最新报告

《人工智能辅助决策中的数据可视化：系统性综述》

人工智能驱动弹药制造现代化：美国陆军转型之路

《敏捷作战部署中枢纽-辐条基地选址优化研究》80页

相关资讯

【AAAI2021】自监督对应学习的对比转换

【AAAI2021】自监督对应学习的对比转换

专知

12+阅读 · 2020年12月11日

【ACMMM2020-北航】KBGN:用于视觉对话中自适应视觉-文本推理的知识桥图网络

【ACMMM2020-北航】KBGN:用于视觉对话中自适应视觉-文本推理的知识桥图网络

专知

10+阅读 · 2020年8月12日

【泡泡图灵智库】用于多相机匹配的时空二进制特征

【泡泡图灵智库】用于多相机匹配的时空二进制特征

泡泡机器人SLAM

4+阅读 · 2019年9月16日

论文浅尝 | 将文本建模为关系图，用于联合实体和关系提取

论文浅尝 | 将文本建模为关系图，用于联合实体和关系提取

开放知识图谱

77+阅读 · 2019年9月14日

论文浅尝 | 采用多层注意力机制的事件检测

论文浅尝 | 采用多层注意力机制的事件检测

开放知识图谱

24+阅读 · 2019年8月24日

性能优越！李飞飞团队首次提出一种补全视觉信息库的半监督方法

性能优越！李飞飞团队首次提出一种补全视觉信息库的半监督方法

AI前线

6+阅读 · 2019年5月11日

ACM MM18 | 用于跨模态检索的综合距离保持自编码器

ACM MM18 | 用于跨模态检索的综合距离保持自编码器

PaperWeekly

5+阅读 · 2019年3月11日

论文浅尝 | 基于局内去噪和迁移学习的关系抽取

论文浅尝 | 基于局内去噪和迁移学习的关系抽取

开放知识图谱

16+阅读 · 2018年12月2日

【泡泡点云时空】3DMV:联合三维多视图预测的三维语义场景分割(ECCV2018-7)

【泡泡点云时空】3DMV:联合三维多视图预测的三维语义场景分割(ECCV2018-7)

泡泡机器人SLAM

9+阅读 · 2018年10月16日

【干货】首次使用分层强化学习框架进行视频描述生成，王威廉组最新工作

【干货】首次使用分层强化学习框架进行视频描述生成，王威廉组最新工作

专知

14+阅读 · 2017年12月9日

相关论文

Semantic Grouping Network for Video Captioning

Arxiv

8+阅读 · 2021年2月1日

Video2Commonsense: Generating Commonsense Descriptions to Enrich Video Captioning

Video2Commonsense: Generating Commonsense Descriptions to Enrich Video Captioning

Arxiv

3+阅读 · 2020年3月17日

Learning to Respond with Stickers: A Framework of Unifying Multi-Modality in Multi-Turn Dialog

Learning to Respond with Stickers: A Framework of Unifying Multi-Modality in Multi-Turn Dialog

Arxiv

14+阅读 · 2020年3月10日

Activitynet 2019 Task 3: Exploring Contexts for Dense Captioning Events in Videos

Activitynet 2019 Task 3: Exploring Contexts for Dense Captioning Events in Videos

Arxiv

3+阅读 · 2019年7月11日

Leveraging Long and Short-term Information in Content-aware Movie Recommendation

Arxiv

8+阅读 · 2018年5月2日

Watch, Listen, and Describe: Globally and Locally Aligned Cross-Modal Attentions for Video Captioning

Arxiv

6+阅读 · 2018年4月15日

Fine-grained Activity Recognition in Baseball Videos

Arxiv

6+阅读 · 2018年4月9日

Bidirectional Attentive Fusion with Context Gating for Dense Video Captioning

Arxiv

5+阅读 · 2018年4月3日

Video Captioning via Hierarchical Reinforcement Learning

Arxiv

20+阅读 · 2018年3月29日

Topic Compositional Neural Language Model

Arxiv

5+阅读 · 2018年2月26日

微信扫码咨询专知VIP会员