对话到视频检索 (Dialogue-to-Video Retrieval) - 专知论文

会员服务 ·

0

视频检索 · 视频 · 结构化 · 文本查询 · 结构 ·

2023 年 3 月 23 日

Dialogue-to-Video Retrieval

翻译：对话到视频检索

Chenyang Lyu,Manh-Duy Nguyen,Van-Tu Ninh,Liting Zhou,Cathal Gurrin,Jennifer Foster

Recent years have witnessed an increasing amount of dialogue/conversation on the web especially on social media. That inspires the development of dialogue-based retrieval, in which retrieving videos based on dialogue is of increasing interest for recommendation systems. Different from other video retrieval tasks, dialogue-to-video retrieval uses structured queries in the form of user-generated dialogue as the search descriptor. We present a novel dialogue-to-video retrieval system, incorporating structured conversational information. Experiments conducted on the AVSD dataset show that our proposed approach using plain-text queries improves over the previous counterpart model by 15.8% on R@1. Furthermore, our approach using dialogue as a query, improves retrieval performance by 4.2%, 6.2%, 8.6% on R@1, R@5 and R@10 and outperforms the state-of-the-art model by 0.7%, 3.6% and 6.0% on R@1, R@5 and R@10 respectively.

翻译：近年来，网络特别是社交媒体上的对话/会话数量不断增加。这启发了对话检索的发展，其中，基于对话的视频检索对于推荐系统越来越具有吸引力。不同于其他视频检索任务，对话到视频检索使用以用户生成的对话形式的结构化查询作为搜索描述符。我们提出了一种新颖的对话到视频检索系统，结合了结构化的对话信息。在AVSD数据集上进行的实验表明，我们所提出的使用纯文本查询的方法在R@1上改进了先前的对应模型15.8%。此外，我们使用对话作为查询的方法，在R@1、R@5和R@10上分别改进检索性能4.2%、6.2%和8.6%，并且在R@1、R@5和R@10上分别优于最先进的模型0.7%、3.6%和6.0%。

0

相关内容

视频检索

【KDD2022】基于知识增强提示学习的统一会话推荐系统

【KDD2022】基于知识增强提示学习的统一会话推荐系统

专知会员服务

29+阅读 · 2022年6月26日

【CVPR 2022】跨模态检索的协同双流视觉-语言前训练模型，COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for Cross-Modal Retrieval

【CVPR 2022】跨模态检索的协同双流视觉-语言前训练模型，COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for Cross-Modal Retrieval

专知会员服务

13+阅读 · 2022年3月12日

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

专知会员服务

109+阅读 · 2020年2月19日

【Google ICLR2020论文】嵌入式大规模检索的预训练任务，Pre-training Tasks for Embedding-based Large-scale Retrieval

【Google ICLR2020论文】嵌入式大规模检索的预训练任务，Pre-training Tasks for Embedding-based Large-scale Retrieval

专知会员服务

28+阅读 · 2020年2月12日

【微软研究院】IMAGEBERT: CROSS-MODAL PRE-TRAINING WITH LARGE-SCALE WEAK-SUPERVISED IMAGE-TEXT DATA

【微软研究院】IMAGEBERT: CROSS-MODAL PRE-TRAINING WITH LARGE-SCALE WEAK-SUPERVISED IMAGE-TEXT DATA

专知会员服务

43+阅读 · 2020年1月28日

SIGIR 2022 | 集理解、策略、生成一体的半监督预训练对话模型

SIGIR 2022 | 集理解、策略、生成一体的半监督预训练对话模型

PaperWeekly

1+阅读 · 2022年10月14日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

44+阅读 · 2019年1月3日

【论文推荐】最新六篇图像检索相关论文—多模态反馈、二值约束深度哈希、绘制草图、对话交互式、多目标图像检索

【论文推荐】最新六篇图像检索相关论文—多模态反馈、二值约束深度哈希、绘制草图、对话交互式、多目标图像检索

专知

14+阅读 · 2018年6月11日

【论文推荐】最新八篇图像检索相关论文—三元组、深度特征图、判别式、卷积特征聚合、视觉-关系知识图谱、大规模图像检索

【论文推荐】最新八篇图像检索相关论文—三元组、深度特征图、判别式、卷积特征聚合、视觉-关系知识图谱、大规模图像检索

专知

33+阅读 · 2018年4月23日

【论文推荐】最新六篇图像描述生成相关论文—视频摘要、注意力张量积、非自回归神经序列模型、副词识别、多主体、多样性度量

【论文推荐】最新六篇图像描述生成相关论文—视频摘要、注意力张量积、非自回归神经序列模型、副词识别、多主体、多样性度量

专知

10+阅读 · 2018年3月2日

基于查询语义分析与推理的隐式相关反馈检索模型研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于开径式非相干宽带腔增强吸收光谱大气中HONO探测方法的研究

国家自然科学基金

0+阅读 · 2012年12月31日

最小化图像描述子敏感度的大规模图像索引及检索方法

国家自然科学基金

0+阅读 · 2012年12月31日

基于多粒度视频基元的中国手语合成方法研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于Web挖掘的图像和视频标注与搜索关键技术研究

国家自然科学基金

0+阅读 · 2011年12月31日

TOME: A Two-stage Approach for Model-based Retrieval

Arxiv

0+阅读 · 2023年5月18日

Multi-Grained Knowledge Retrieval for End-to-End Task-Oriented Dialog

Arxiv

0+阅读 · 2023年5月17日

Pre-training Methods in Information Retrieval

Arxiv

16+阅读 · 2021年11月27日

End-to-End Video Instance Segmentation with Transformers

Arxiv

10+阅读 · 2021年3月24日

Detect-to-Retrieve: Efficient Regional Aggregation for Image Search

Arxiv

15+阅读 · 2018年12月4日

VIP会员

文章信息

相关主题

相关VIP内容

【KDD2022】基于知识增强提示学习的统一会话推荐系统

【KDD2022】基于知识增强提示学习的统一会话推荐系统

专知会员服务

29+阅读 · 2022年6月26日

【CVPR 2022】跨模态检索的协同双流视觉-语言前训练模型，COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for Cross-Modal Retrieval

【CVPR 2022】跨模态检索的协同双流视觉-语言前训练模型，COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for Cross-Modal Retrieval

专知会员服务

13+阅读 · 2022年3月12日

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

专知会员服务

109+阅读 · 2020年2月19日

【Google ICLR2020论文】嵌入式大规模检索的预训练任务，Pre-training Tasks for Embedding-based Large-scale Retrieval

【Google ICLR2020论文】嵌入式大规模检索的预训练任务，Pre-training Tasks for Embedding-based Large-scale Retrieval

专知会员服务

28+阅读 · 2020年2月12日

【微软研究院】IMAGEBERT: CROSS-MODAL PRE-TRAINING WITH LARGE-SCALE WEAK-SUPERVISED IMAGE-TEXT DATA

【微软研究院】IMAGEBERT: CROSS-MODAL PRE-TRAINING WITH LARGE-SCALE WEAK-SUPERVISED IMAGE-TEXT DATA

专知会员服务

43+阅读 · 2020年1月28日

热门VIP内容

开通专知VIP会员享更多权益服务

从代码基础模型到智能体与应用：代码智能的全面综述与实践指南

《北约认知战概念报告》

【MIT博士论文】高效的视觉合成生成模型

美海军放弃星座级转而采用国家安全巡逻舰设计

相关资讯

SIGIR 2022 | 集理解、策略、生成一体的半监督预训练对话模型

SIGIR 2022 | 集理解、策略、生成一体的半监督预训练对话模型

PaperWeekly

1+阅读 · 2022年10月14日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

44+阅读 · 2019年1月3日

【论文推荐】最新六篇图像检索相关论文—多模态反馈、二值约束深度哈希、绘制草图、对话交互式、多目标图像检索

【论文推荐】最新六篇图像检索相关论文—多模态反馈、二值约束深度哈希、绘制草图、对话交互式、多目标图像检索

专知

14+阅读 · 2018年6月11日

【论文推荐】最新八篇图像检索相关论文—三元组、深度特征图、判别式、卷积特征聚合、视觉-关系知识图谱、大规模图像检索

【论文推荐】最新八篇图像检索相关论文—三元组、深度特征图、判别式、卷积特征聚合、视觉-关系知识图谱、大规模图像检索

专知

33+阅读 · 2018年4月23日

【论文推荐】最新六篇图像描述生成相关论文—视频摘要、注意力张量积、非自回归神经序列模型、副词识别、多主体、多样性度量

【论文推荐】最新六篇图像描述生成相关论文—视频摘要、注意力张量积、非自回归神经序列模型、副词识别、多主体、多样性度量

专知

10+阅读 · 2018年3月2日

相关论文

TOME: A Two-stage Approach for Model-based Retrieval

Arxiv

0+阅读 · 2023年5月18日

Multi-Grained Knowledge Retrieval for End-to-End Task-Oriented Dialog

Arxiv

0+阅读 · 2023年5月17日

Pre-training Methods in Information Retrieval

Arxiv

16+阅读 · 2021年11月27日

End-to-End Video Instance Segmentation with Transformers

Arxiv

10+阅读 · 2021年3月24日

Detect-to-Retrieve: Efficient Regional Aggregation for Image Search

Arxiv

15+阅读 · 2018年12月4日

相关基金

基于查询语义分析与推理的隐式相关反馈检索模型研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于开径式非相干宽带腔增强吸收光谱大气中HONO探测方法的研究

国家自然科学基金

0+阅读 · 2012年12月31日

最小化图像描述子敏感度的大规模图像索引及检索方法

国家自然科学基金

0+阅读 · 2012年12月31日

基于多粒度视频基元的中国手语合成方法研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于Web挖掘的图像和视频标注与搜索关键技术研究

国家自然科学基金

0+阅读 · 2011年12月31日

微信扫码咨询专知VIP会员