手术视频-语言预训练(VLP)由于知识领域的差异和多模态数据的稀缺,面临独特的挑战。本研究旨在通过解决手术讲解视频中的文本信息丢失问题,以及手术VLP的时空挑战,来缩小这一差距。我们提出了一种分层知识增强方法,并设计了一种新的流程编码的手术知识增强视频-语言预训练框架(PeskaVLP)来应对这些问题。知识增强使用大型语言模型(LLM)来优化和丰富手术概念,从而提供全面的语言监督,降低过拟合的风险。PeskaVLP将语言监督与视觉自监督相结合,构建难负样本,并采用基于动态时间规整(DTW)的损失函数,来有效理解跨模态的流程对齐。基于多个公开的手术场景理解和跨模态检索数据集的大量实验表明,我们提出的方法显著提高了零样本迁移性能,并为手术场景理解的进一步发展提供了通用的视觉表示。

成为VIP会员查看完整内容
19

相关内容

【CVPR2024】视觉-语言模型的高效测试时间调整
专知会员服务
20+阅读 · 2024年3月30日
【CVPR2024】通过丰富的监督增强视觉-语言预训练
专知会员服务
14+阅读 · 2024年3月7日
【ICML2023】面向决策Transformer的未来条件无监督预训练
专知会员服务
44+阅读 · 2023年5月30日
【KDD2020-UCLA-微软】GPT-GNN:图神经网络的预训练
专知会员服务
63+阅读 · 2020年8月19日
【EMNLP2019教程】端到端学习对话人工智能,附237页PPT下载
专知会员服务
70+阅读 · 2019年11月25日
【KDD2020】图神经网络生成式预训练
专知
22+阅读 · 2020年7月3日
【CVPR2019教程】视频理解中的图表示学习
专知
43+阅读 · 2019年6月20日
下载 | 384页NLP多任务联合学习教程(PPT)
机器学习算法与Python学习
20+阅读 · 2018年11月22日
国家自然科学基金
27+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
162+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
424+阅读 · 2023年3月31日
Arxiv
69+阅读 · 2023年3月26日
Arxiv
153+阅读 · 2023年3月24日
Arxiv
22+阅读 · 2023年3月17日
VIP会员
相关基金
国家自然科学基金
27+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员