近期在多模态应用中的加速发展得益于线上大量的图像和文本数据。但是,在医学领域,特别是在组织病理学中,相似数据的稀缺性已经阻碍了类似的进展。为了在组织病理学中实现类似的表示学习,我们转向YouTube,这是一个尚未被充分利用的视频资源,提供了1,087小时来自专家临床医生的有价值的教育性组织病理学视频。从YouTube,我们策划了Quilt:一个大型的视觉-语言数据集,包括768,826对图像和文本。Quilt是使用各种模型(包括大型语言模型)、手工算法、人类知识数据库和自动语音识别自动策划的。相比之下,为组织病理学策划的最全面的数据集只有约200K样本。我们将Quilt与来自其他来源的数据集结合,包括Twitter、研究论文和互联网,创建了一个更大的数据集:Quilt-1M,它包括1M对图像-文本样本,使其成为迄今为止最大的视觉-语言组织病理学数据集。我们通过微调一个预训练的CLIP模型来展示Quilt-1M的价值。我们的模型在对13个不同的补丁级数据集的8种不同子病理学分类的零射击和线性探测任务,以及跨模态检索任务上均超过了最先进的模型。

成为VIP会员查看完整内容
18

相关内容

【NeurIPS2023】PAXION:在视频-语言基础模型中修补动作知识
【NeurIPS2021】NeRV:视频的神经表示
专知会员服务
11+阅读 · 2021年10月28日
专知会员服务
14+阅读 · 2021年9月11日
【Tutorial】计算机视觉中的Transformer,98页ppt
专知
18+阅读 · 2021年10月25日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
158+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
408+阅读 · 2023年3月31日
Arxiv
147+阅读 · 2023年3月24日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员