交互感知提示的零样本时空动作检测 (Interaction-Aware Prompting for Zero-Shot Spatio-Temporal Action Detection) - 专知论文

会员服务 ·

0

动作检测 · 零样本 · 交互 · 文本特征 · 交互感知 ·

2023 年 4 月 11 日

Interaction-Aware Prompting for Zero-Shot Spatio-Temporal Action Detection

翻译：交互感知提示的零样本时空动作检测

Wei-Jhe Huang,Jheng-Hsien Yeh,Gueter Josmy Faure,Min-Hung Chen,Shang-Hong Lai

from arxiv, the first Zero-Shot Spatio-Temporal Action Detection work

The goal of spatial-temporal action detection is to determine the time and place where each person's action occurs in a video and classify the corresponding action category. Most of the existing methods adopt fully-supervised learning, which requires a large amount of training data, making it very difficult to achieve zero-shot learning. In this paper, we propose to utilize a pre-trained visual-language model to extract the representative image and text features, and model the relationship between these features through different interaction modules to obtain the interaction feature. In addition, we use this feature to prompt each label to obtain more appropriate text features. Finally, we calculate the similarity between the interaction feature and the text feature for each label to determine the action category. Our experiments on J-HMDB and UCF101-24 datasets demonstrate that the proposed interaction module and prompting make the visual-language features better aligned, thus achieving excellent accuracy for zero-shot spatio-temporal action detection. The code will be released upon acceptance.

翻译：空间时间动作检测的目标是确定人们动作发生的时间和地点，并分类相应的动作类别。目前大多数现有方法采用完全监督学习，需要大量的训练数据，使得实现零样本学习非常困难。本文提出利用预训练的视觉语言模型提取代表性图像和文本特征，并通过不同的交互模块对这些特征之间的关系进行建模，从而获得交互特征。此外，我们利用这种特征提示每个标签以获得更适当的文本特征。最后，我们计算交互特征和每个标签的文本特征之间的相似度来确定动作类别。我们在J-HMDB和UCF101-24数据集上的实验表明，所提出的交互模块和提示使视觉语言特征更好地对齐，从而实现了零样本时空动作检测的出色准确性。代码将在接受后发布。

0

相关内容

动作检测

MM-REACT:提示ChatGPT进行多模态推理和行动

MM-REACT:提示ChatGPT进行多模态推理和行动

专知会员服务

34+阅读 · 2023年3月26日

近期必读的5篇顶会CVPR 2021【图像/视频描述生成】相关论文和代码

专知会员服务

48+阅读 · 2021年4月25日

近期必读的六篇 NeurIPS 2020【域自适应】相关论文和代码

专知会员服务

42+阅读 · 2020年12月1日

【论文推荐】针对公民投诉的时空分类法标签推荐 STAR: Spatio-Temporal Taxonomy-Aware Tag Recommendation for Citizen Complaints

【论文推荐】针对公民投诉的时空分类法标签推荐 STAR: Spatio-Temporal Taxonomy-Aware Tag Recommendation for Citizen Complaints

专知会员服务

16+阅读 · 2020年7月20日

近期必读的5篇顶会CVPR 2020【图神经网络（GNN）】相关论文-Part2

近期必读的5篇顶会CVPR 2020【图神经网络（GNN）】相关论文-Part2

专知会员服务

84+阅读 · 2020年3月17日

【Google ICLR2020论文】嵌入式大规模检索的预训练任务，Pre-training Tasks for Embedding-based Large-scale Retrieval

【Google ICLR2020论文】嵌入式大规模检索的预训练任务，Pre-training Tasks for Embedding-based Large-scale Retrieval

专知会员服务

28+阅读 · 2020年2月12日

近期必读的6篇 NeurIPS 2019 的零样本学习(Zero-Shot Learning)论文

近期必读的6篇 NeurIPS 2019 的零样本学习(Zero-Shot Learning)论文

专知会员服务

60+阅读 · 2019年12月24日

【论文推荐】基于元学习的小样本链接预测：FEW SHOT LINK PREDICTION VIA META LEARNING

【论文推荐】基于元学习的小样本链接预测：FEW SHOT LINK PREDICTION VIA META LEARNING

专知会员服务

57+阅读 · 2019年12月23日

【视频中的零样本动作识别：综述】Zero-Shot Action Recognition in Videos: A Survey

【视频中的零样本动作识别：综述】Zero-Shot Action Recognition in Videos: A Survey

专知会员服务

39+阅读 · 2019年10月12日

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

专知会员服务

41+阅读 · 2019年10月9日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

逆强化学习-学习人先验的动机

逆强化学习-学习人先验的动机

CreateAMind

16+阅读 · 2019年1月18日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

【泡泡一分钟】SSD6D：基于RGB的三维检测和6自由度位姿估计(ICCV2017-159)

【泡泡一分钟】SSD6D：基于RGB的三维检测和6自由度位姿估计(ICCV2017-159)

泡泡机器人SLAM

17+阅读 · 2018年10月12日

【论文推荐】最新六篇视觉问答相关论文—深度嵌入学习、句子表征学习、深度特征聚合、3D匹配、细粒度文本摘要

【论文推荐】最新六篇视觉问答相关论文—深度嵌入学习、句子表征学习、深度特征聚合、3D匹配、细粒度文本摘要

专知

12+阅读 · 2018年6月9日

【论文推荐】最新六篇知识图谱相关论文—Zero-shot识别、卷积二维知识图谱、变分知识图谱推理、张量分解、推荐

【论文推荐】最新六篇知识图谱相关论文—Zero-shot识别、卷积二维知识图谱、变分知识图谱推理、张量分解、推荐

专知

50+阅读 · 2018年4月25日

【论文推荐】最新五篇视频分类相关论文—细粒度行人识别、群组归一化、MLtuner、时序特征

【论文推荐】最新五篇视频分类相关论文—细粒度行人识别、群组归一化、MLtuner、时序特征

专知

22+阅读 · 2018年4月21日

【论文推荐】最新七篇知识图谱相关论文—嵌入式知识、Zero-shot识别、知识图谱嵌入、网络库、变分推理、解释、弱监督

【论文推荐】最新七篇知识图谱相关论文—嵌入式知识、Zero-shot识别、知识图谱嵌入、网络库、变分推理、解释、弱监督

专知

19+阅读 · 2018年3月26日

【论文推荐】最新5篇行人再识别（ReID）相关论文—迁移学习、特征集成、重排序、多通道金字塔、深层生成模型

【论文推荐】最新5篇行人再识别（ReID）相关论文—迁移学习、特征集成、重排序、多通道金字塔、深层生成模型

专知

12+阅读 · 2018年3月24日

【论文推荐】最新5篇目标检测相关论文——显著目标检测、弱监督One-Shot检测、多框检测器、携带物体检测、假彩色图像检测

【论文推荐】最新5篇目标检测相关论文——显著目标检测、弱监督One-Shot检测、多框检测器、携带物体检测、假彩色图像检测

专知

74+阅读 · 2018年1月16日

多层时空并行 Schwarz 算法的研究

国家自然科学基金

3+阅读 · 2017年12月31日

求解时间依赖问题的隐式时空并行 Schwarz 算法研究

国家自然科学基金

0+阅读 · 2017年12月31日

AG-WUS-PcG-lncRNA互作对梅多雌蕊发育的调控

国家自然科学基金

0+阅读 · 2015年12月31日

长链非编码RNA-TUSC7在胃癌中的抑癌作用及机制研究

国家自然科学基金

1+阅读 · 2014年12月31日

缺血再灌注性急性肾损伤中Klotho水平与炎症的关系及作用机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

ADS强外中子源效应的时空动力学研究与模拟软件开发

国家自然科学基金

0+阅读 · 2013年12月31日

AMPK 通过 Atg4C磷酸化调节心力衰竭自噬与凋亡平衡的机制研究

国家自然科学基金

0+阅读 · 2013年12月31日

长链非编码RNA-HOTAIR的蛋白调控网络的构建及功能研究

国家自然科学基金

0+阅读 · 2012年12月31日

针刺干预内质网应激调节脑缺血再灌注大鼠神经细胞自噬的分子机制研究

国家自然科学基金

0+阅读 · 2012年12月31日

听神经瘤中merlin的磷酸化对p53稳定性及细胞凋亡的影响

国家自然科学基金

0+阅读 · 2008年12月31日

VGSE: Visually-Grounded Semantic Embeddings for Zero-Shot Learning

Arxiv

0+阅读 · 2023年5月26日

Multimodal Prompting with Missing Modalities for Visual Recognition

Arxiv

11+阅读 · 2023年3月6日

A Survey on Graph Neural Networks and Graph Transformers in Computer Vision: A Task-Oriented Perspective

Arxiv

21+阅读 · 2022年9月27日

Survey: Transformer based Video-Language Pre-training

Arxiv

20+阅读 · 2021年9月21日

Temporal Relational Modeling with Self-Supervision for Action Segmentation

Arxiv

13+阅读 · 2020年12月14日

UP-DETR: Unsupervised Pre-training for Object Detection with Transformers

UP-DETR: Unsupervised Pre-training for Object Detection with Transformers

Arxiv

19+阅读 · 2020年11月18日

PROP: Pre-training with Representative Words Prediction for Ad-hoc Retrieval

Arxiv

11+阅读 · 2020年10月20日

Learning to Learn and Predict: A Meta-Learning Approach for Multi-Label Classification

Learning to Learn and Predict: A Meta-Learning Approach for Multi-Label Classification

Arxiv

17+阅读 · 2019年9月9日

Transferring Common-Sense Knowledge for Object Detection

Arxiv

12+阅读 · 2018年4月3日

Dynamic Zoom-in Network for Fast Object Detection in Large Images

Arxiv

20+阅读 · 2018年3月27日

VIP会员

文章信息

相关主题

相关VIP内容

MM-REACT:提示ChatGPT进行多模态推理和行动

MM-REACT:提示ChatGPT进行多模态推理和行动

专知会员服务

34+阅读 · 2023年3月26日

近期必读的5篇顶会CVPR 2021【图像/视频描述生成】相关论文和代码

专知会员服务

48+阅读 · 2021年4月25日

近期必读的六篇 NeurIPS 2020【域自适应】相关论文和代码

专知会员服务

42+阅读 · 2020年12月1日

【论文推荐】针对公民投诉的时空分类法标签推荐 STAR: Spatio-Temporal Taxonomy-Aware Tag Recommendation for Citizen Complaints

【论文推荐】针对公民投诉的时空分类法标签推荐 STAR: Spatio-Temporal Taxonomy-Aware Tag Recommendation for Citizen Complaints

专知会员服务

16+阅读 · 2020年7月20日

近期必读的5篇顶会CVPR 2020【图神经网络（GNN）】相关论文-Part2

近期必读的5篇顶会CVPR 2020【图神经网络（GNN）】相关论文-Part2

专知会员服务

84+阅读 · 2020年3月17日

【Google ICLR2020论文】嵌入式大规模检索的预训练任务，Pre-training Tasks for Embedding-based Large-scale Retrieval

【Google ICLR2020论文】嵌入式大规模检索的预训练任务，Pre-training Tasks for Embedding-based Large-scale Retrieval

专知会员服务

28+阅读 · 2020年2月12日

近期必读的6篇 NeurIPS 2019 的零样本学习(Zero-Shot Learning)论文

近期必读的6篇 NeurIPS 2019 的零样本学习(Zero-Shot Learning)论文

专知会员服务

60+阅读 · 2019年12月24日

【论文推荐】基于元学习的小样本链接预测：FEW SHOT LINK PREDICTION VIA META LEARNING

【论文推荐】基于元学习的小样本链接预测：FEW SHOT LINK PREDICTION VIA META LEARNING

专知会员服务

57+阅读 · 2019年12月23日

【视频中的零样本动作识别：综述】Zero-Shot Action Recognition in Videos: A Survey

【视频中的零样本动作识别：综述】Zero-Shot Action Recognition in Videos: A Survey

专知会员服务

39+阅读 · 2019年10月12日

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

专知会员服务

41+阅读 · 2019年10月9日

热门VIP内容

开通专知VIP会员享更多权益服务

智能体化人工智能：架构、应用及未来发展方向的综合综述

《自主武器》365页书籍

联邦学习综述：多层次聚合技术的系统分类、实验洞察与未来前沿

人工智能在空战中的局限及其真正适用领域

相关资讯

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

逆强化学习-学习人先验的动机

逆强化学习-学习人先验的动机

CreateAMind

16+阅读 · 2019年1月18日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

【泡泡一分钟】SSD6D：基于RGB的三维检测和6自由度位姿估计(ICCV2017-159)

【泡泡一分钟】SSD6D：基于RGB的三维检测和6自由度位姿估计(ICCV2017-159)

泡泡机器人SLAM

17+阅读 · 2018年10月12日

【论文推荐】最新六篇视觉问答相关论文—深度嵌入学习、句子表征学习、深度特征聚合、3D匹配、细粒度文本摘要

【论文推荐】最新六篇视觉问答相关论文—深度嵌入学习、句子表征学习、深度特征聚合、3D匹配、细粒度文本摘要

专知

12+阅读 · 2018年6月9日

【论文推荐】最新六篇知识图谱相关论文—Zero-shot识别、卷积二维知识图谱、变分知识图谱推理、张量分解、推荐

【论文推荐】最新六篇知识图谱相关论文—Zero-shot识别、卷积二维知识图谱、变分知识图谱推理、张量分解、推荐

专知

50+阅读 · 2018年4月25日

【论文推荐】最新五篇视频分类相关论文—细粒度行人识别、群组归一化、MLtuner、时序特征

【论文推荐】最新五篇视频分类相关论文—细粒度行人识别、群组归一化、MLtuner、时序特征

专知

22+阅读 · 2018年4月21日

【论文推荐】最新七篇知识图谱相关论文—嵌入式知识、Zero-shot识别、知识图谱嵌入、网络库、变分推理、解释、弱监督

【论文推荐】最新七篇知识图谱相关论文—嵌入式知识、Zero-shot识别、知识图谱嵌入、网络库、变分推理、解释、弱监督

专知

19+阅读 · 2018年3月26日

【论文推荐】最新5篇行人再识别（ReID）相关论文—迁移学习、特征集成、重排序、多通道金字塔、深层生成模型

【论文推荐】最新5篇行人再识别（ReID）相关论文—迁移学习、特征集成、重排序、多通道金字塔、深层生成模型

专知

12+阅读 · 2018年3月24日

【论文推荐】最新5篇目标检测相关论文——显著目标检测、弱监督One-Shot检测、多框检测器、携带物体检测、假彩色图像检测

【论文推荐】最新5篇目标检测相关论文——显著目标检测、弱监督One-Shot检测、多框检测器、携带物体检测、假彩色图像检测

专知

74+阅读 · 2018年1月16日

相关论文

VGSE: Visually-Grounded Semantic Embeddings for Zero-Shot Learning

Arxiv

0+阅读 · 2023年5月26日

Multimodal Prompting with Missing Modalities for Visual Recognition

Arxiv

11+阅读 · 2023年3月6日

A Survey on Graph Neural Networks and Graph Transformers in Computer Vision: A Task-Oriented Perspective

Arxiv

21+阅读 · 2022年9月27日

Survey: Transformer based Video-Language Pre-training

Arxiv

20+阅读 · 2021年9月21日

Temporal Relational Modeling with Self-Supervision for Action Segmentation

Arxiv

13+阅读 · 2020年12月14日

UP-DETR: Unsupervised Pre-training for Object Detection with Transformers

UP-DETR: Unsupervised Pre-training for Object Detection with Transformers

Arxiv

19+阅读 · 2020年11月18日

PROP: Pre-training with Representative Words Prediction for Ad-hoc Retrieval

Arxiv

11+阅读 · 2020年10月20日

Learning to Learn and Predict: A Meta-Learning Approach for Multi-Label Classification

Learning to Learn and Predict: A Meta-Learning Approach for Multi-Label Classification

Arxiv

17+阅读 · 2019年9月9日

Transferring Common-Sense Knowledge for Object Detection

Arxiv

12+阅读 · 2018年4月3日

Dynamic Zoom-in Network for Fast Object Detection in Large Images

Arxiv

20+阅读 · 2018年3月27日

相关基金

多层时空并行 Schwarz 算法的研究

国家自然科学基金

3+阅读 · 2017年12月31日

求解时间依赖问题的隐式时空并行 Schwarz 算法研究

国家自然科学基金

0+阅读 · 2017年12月31日

AG-WUS-PcG-lncRNA互作对梅多雌蕊发育的调控

国家自然科学基金

0+阅读 · 2015年12月31日

长链非编码RNA-TUSC7在胃癌中的抑癌作用及机制研究

国家自然科学基金

1+阅读 · 2014年12月31日

缺血再灌注性急性肾损伤中Klotho水平与炎症的关系及作用机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

ADS强外中子源效应的时空动力学研究与模拟软件开发

国家自然科学基金

0+阅读 · 2013年12月31日

AMPK 通过 Atg4C磷酸化调节心力衰竭自噬与凋亡平衡的机制研究

国家自然科学基金

0+阅读 · 2013年12月31日

长链非编码RNA-HOTAIR的蛋白调控网络的构建及功能研究

国家自然科学基金

0+阅读 · 2012年12月31日

针刺干预内质网应激调节脑缺血再灌注大鼠神经细胞自噬的分子机制研究

国家自然科学基金

0+阅读 · 2012年12月31日

听神经瘤中merlin的磷酸化对p53稳定性及细胞凋亡的影响

国家自然科学基金

0+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员